核高基项目2011ZX01042-001-001:    互联网数据建模及新一代搜索引擎关键技术   in 基于框计算的新一代搜索引擎与浏览器    2011.1-2011.12,
课题研究内容为:
本分课题按照“基于框计算的新一代搜索引擎与浏览器”项目的总体要求,研究面向互联网数据的新一代搜索引擎关键技术,包括:
1)Web文本搜索技术。重点研究建立新的网络信息结构模型,分析用户需求和行为特征,高性能索引结构等;
2)Web多媒体搜索技术。重点研究富媒体、多形态数据综合分析和融合等;
3)搜索引擎开放评测平台技术。目的是推动新一代搜索引擎不断优化,促进搜索引擎在中国研发与产业的繁荣和跨越式发展。
中英文的支持可以分别写成:      核高基项目2011ZX01042-001-001      HGJ Grant No. 2011ZX01042-001-001

Patents
  1. 基于图书领域本体的个性化搜索方法, 发明人: 张铭、孙韬. 专利号:200910238155.8。 授权公告日:2011年8月10日 [link]
  2. 中文术语自动提取系统及方法, 发明人:穗志方、康为, 专利号:ZL200810119708.3 授权公告日:2011年2月9日 [link]
  3. 一种搜索引擎动态摘要提取方法,发明人:闫宏飞、树柏涵、李晓明, 专利号:ZL200910076485.1, 授权公告日:2010年12月08日 [link]

  4. 基于相关性分数分布对查询意图进行分类的方法, 申请号:201110415617.6, 申请日:2011年12月13日, 申请人:闫宏飞、刘晓兵、徐谷子、何靖 [link]
  5. 基于网页质量的静态索引剪枝方法, 申请号:201110393942.7, 申请日:2011年12月1日, 申请人:闫宏飞、单栋栋、张旭东、李晓明 [link]
  6. 一种可自动调节参数的云计算系统负载预测方法, 申请号:201110084332.9, 申请日:2011年4月2日,肖臻、宋维佳、黄群 [link]
  7. 一种基于云计算的互联网应用调度方法, 申请号:201110149707.5, 申请日:2011年6月3日,肖臻、罗海鹏、陈琪 [link]
  8. 一种社交网络上的热词挖掘和事件挖掘方法, 申请号:201110434991.0, 申请日:2011年12月22日, 闫宏飞、树柏涵、赵鑫、李晓明 [link]
  9. 一种基于整形小波变换的音频无损压缩编码、解码方法, 申请号:201010281033.X, 申请日:2010年9月14日, 吴玺宏,曲天书,迟惠生,高懿,何文欣,张搏 [link]
  10. 基于用户日志进行查询推荐的方法及系统, 专利申请号:201110422562.1 专利申请人:北京大学 王继民, 李雷明子, 王建冬 [link]
  11. 基于自动分类和关键字标注的自动视频注释方法, 申请号:2011103743801 崔斌、姚俊杰、陈琛、舒清雅 [link]
  12. 基于语言模型的专家推荐方法, 申请号:2011103734751 崔斌、姚俊杰、阴红志、刘晴芸 [link]
  13. 一种网页信息抽取方法, 申请号:201110409875.3 , 申请日:2011年12月9日, 申请人:穗志方、李文杰
  14. 一种Web新网页推荐方法, 申请号:201010155971.5,申请日:2010年04月26日, 张岩 [link]


Software
  1. 软件著作权: 智能中英文搜索引擎平台系统,首次发表日期:2009年9月20日,登记号:2010SR015259 [link]
  2. 软件著作权: 基于海量科技资源的跨域查新服务系统 首次发表日期:2011年03月01日 登记号:2011SR086403 (by ZHANG Ming) [link]
  3. 软件著作权:基于浅层句法分析的中文语义角色标注系统V1.0 首次发表日期:2009年9月8日 登记号:2011SR026998 (by SUI Zhifang) [link]
  4. 软件著作权:基于句子压缩的语义依存分析系统V1.0 首次发表日期:2010年10月11日 登记号:2011SR035833 (by SUI Zhifang) [link]

Papers marked with the project support
  1. Xihong Wu, Meng Zhang, Xiaojun Lin: Parsing-based Chinese word segmentation integrating morphological and syntactic information. NLPKE 2011: 114-121 [pdf]
  2. Meng Zhang, Xiaojun Lin, Xu Dai, Xihong Wu: Parsing-based automatic Chinese term extraction. NLPKE 2011: 122-125 [pdf]
  3. Luo D.S., Wang Y., Wu X.H., “Active Online Learning of the Bipedal Walking”, IEEE-RAS International Conference on Humanoid Robots, Bled, Slovenia, October 26 - 28, 2011. [pdf]
  4. Pang Z.H., Tu S.K., Su D., Wu X.H., Xu L., “Discriminative training of GMM-HMM acoustic model by RPCL learning”, Frontiers of Electrical and Electronic Engineering in China, vol.6(2), pp.283-290, 2011. [pdf]
  5. Pang Z.H., Wu X.H., Xu L., “Discriminative training of GMM-HMM acoustic model by RPCL type Bayesian Ying-Yang harmony learning”, ISCIDE 2011, Xi’an, China, October 23-26, 2011. [pdf]

  6. Junjie Yao, Bin Cui, Yuxin Huang, Yanhong Zhou: Bursty event detection from collaborative tags. World Wide Web 15(2): 171-195 (2012) [pdf]
  7. Keyword Query Reformulation on Structured Data ,ICDE 2012. to appear. [pdf]
  8. Junjie Yao, Bin Cui, Gao Cong, Yuxin Huang: Evolutionary taxonomy construction from dynamic tag space. World Wide Web (2012) [pdf]
  9. Provenance-based Indexing Support in Micro-blog Platforms, ICDE 2012. to appear. [pdf]

  10. Wenjie Li, Zhifang Sui, A hybrid pattern-based method of extracting concept instances and concept attributes,P 1203-1211, Journal of compuational information systems, Volume 8. Number3
  11. Xingxing Zhang, Zhifang Sui, Semantic class learning with deep coordinate structures in web pages,P 1245-1254, Journal of compuational information systems, Volume 8. Number3
  12. 焦妍、王厚峰、张龙凯,基于条件随机场与 Web数据的缩略语预测,中文信息学报 2012(2)62-68 [pdf]
  13. 张龙凯、王厚峰,文本摘要问题中的句子抽取方法研究,中文信息学报 2012(2)97-101 [pdf]

  14. Lei Zhang, Jian Tang, and Ming ZhangIntegrating Temporal Usage Pattern into Personalized Tag Prediction. APWeb 2012. Springer LNCS 7325, 354-365. [pdf]
  15. 燕飞、张铭、孙韬、肖珑, 基于网络特征的用户图书借阅行为分析——以北京大学图书馆为例, 情报学报。2011,30(8):875-882 [pdf]
  16. Ming Zhang, Sheng Feng, Jian Tang, Bolanle Ojokoh, Guojun Liu. Co-Ranking Multiple Entities in a Heterogeneous Network: Integrating Temporal Factor and Users' Bookmarks. Accepted as long paper by ICADL 2011. [pdf]
  17. Xiaolong Wang, Furu Wei, Xiaohua Liu, Ming Zhou and Ming Zhang. Graph-based Sentiment Classification for Hashtags in Twitter. CIKM 2011, Glasgow, UK. PP1031-1040. [pdf]
  18. Fei Yan, Shaowei Cai, Ming Zhang, Guojun Liu and Zhi-Hong Deng. ”A Clique super position Model for Social Networks”. Sci China Inf Sci, 2012 55 [pdf]
  19. 王晟,王子琪,张 铭. 基于BPR的微博推荐算法. SEWM 2012长文录用,被推荐到《计算机研究与发展》期刊

  20. Shan Jiang, Lidong Bing, Bai Sun, Yan Zhang, and Wai Lam. Ontology Enhancement and Concept Granularity Learning: Keeping Yourself Current and Adaptive. In the Proceedings of the 17th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2011), pp.1244-1252, San Diego, CA, US. August 21-24, 2011 [pdf]
  21. Jiazhen Nian, Shan Jiang, Congrui Huang, and Yan Zhang. “CCE: A Chinese Concept Encyclopedia Incorporating the Expert-Edited Chinese Concept Dictionary with Online Cyclopedias”. To appear in the 7th International Conference on Advanced Data Mining and Applications (ADMA 2011), Beijing, China. December 18-20, 2011 (full paper, oral presentation) [pdf
  22. Jinjing Ma and Yan Zhang. Who Resemble You Better, Your Friends or Co-visited Users. In the 14th Asia-Pacific Web Conference (ApWeb 2012), Kunming, China. April 11-13, 2012 [pdf]
  23. Jiazhen Nian, Shan Jiang, Congrui Huang, and Yan Zhang. CCE: A Chinese Concept Encyclopedia Incorporating the Expert-Edited Chinese Concept Dictionary with Online Cyclopedias. In the 7th International Conference on Advanced Data Mining and Applications (ADMA 2011), pp.201-214, Beijing, China. December 18-20, 2011 [pdf]

  24. 王继民,李雷明子,孟涛. Web搜索引擎日志挖掘研究框架[J]. 数字图书馆论坛, 2011. (8): 25-31. [pdf]
  25. Wang Jiandong, Lilei Mingzi, Wang Jimin. A Study on Chinese University Users’ Academic Search Behavior Based on Log Mining. The 2nd International conference on computer and Management (CAMAN 2012). [pdf]

  26. Xin Zhao, Rishan Chen, Kai Fan, Hongfei Yan and Xiaoming Li. A Novel Burst-based Text Representation Model for Scalable Event Detection. ACL 2012, to appear
  27. Dongdong Shan, Shuai Ding, Jing He, Hongfei Yan, Xiaoming Li: Optimized top-k processing with global page scores on block-max indexes. WSDM 2012: 423-432 [pdf]
  28. Dongdong Shan, Wayne Xin Zhao, Jing He, Rui Yan, Hongfei Yan, Xiaoming Li: Efficient phrase querying with flat position index. CIKM 2011: 2001-2004 [pdf]
  29. Yang Lu, Jing He, Dongdong Shan, Hongfei Yan: Recommending citations with translation model. CIKM 2011: 2017-2020 [pdf]
  30. Rui Yan, Jie Tang, Xiaobing Liu, Dongdong Shan, Xiaoming Li: Citation count prediction: learning to estimate future citations for literature. CIKM 2011: 1247-1252 [pdf]
  31. Rui Yan, Jian-Yun Nie, and Xiaoming Li. Summarize What You Are Interested In: An Optimization Framework for Interactive Personalized Summarization. In Proceedings of the Empirical Methods in Natural Language Processing (EMNLP 2011), pages 1342-1351, Edinburgh, United Kingdom, July 27-31, 2011. [pdf]
  32. Xin Zhao, Jing Jiang, Jing He, Yang Song, Palakorn Achanauparp, Ee-Peng Lim and Xiaoming Li. Topical keyphrase extraction from Twitter. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-HLT'11) (long paper), pages 379-388, 2011. (26% acceptance) [pdf]
  33. Jing He, Wayne Xin Zhao, Baihan Shu, Xiaoming Li, Hongfei Yan. Efficiently collecting relevance information from clickthroughs for web retrieval system evaluation. SIGIR 2011: 275-284 [pdf]
  34. 一种基于文档重要度的静态索引剪枝方法, 李晓明,单栋栋 华南理工大学学报(自然科学版) Vol. 39 No.4, 2011 [pdf]
  35. 陆炀,陈翀,何靖,单栋栋,闫宏飞. 基于翻译模型的引文推荐, 已于2011年11月8日在线发表. [link]

示范基地
北京昌平区五环以外昌平区十三陵镇西山口北京大学昌平校区,A楼109B房间。邮编 102249
  1. 房间装修完成
  2. 工作人员已经就绪,正在为本项目集中工作。

人才培养
  1. 北京大学将在本单位的支持下,培养博士后4人,博士生40人,硕士生87人,
  2. 预计项目结束前将有2名博士后出站、5名博士生毕业、20名硕士生毕业。
  3. 开设了大规模数据处理课程 [link]
  4. 邀请了国外著名教授聂建云来北大开设信息检索课程 [link]
  5. 邀请交流讲座若干