核高基项目2011ZX01042-001-001:
互联网数据建模及新一代搜索引擎关键技术
in 基于框计算的新一代搜索引擎与浏览器
2011.1-2011.12,
课题研究内容为:
本分课题按照“基于框计算的新一代搜索引擎与浏览器”项目的总体要求,研究面向互联网数据的新一代搜索引擎关键技术,包括:
1)Web文本搜索技术。重点研究建立新的网络信息结构模型,分析用户需求和行为特征,高性能索引结构等;
2)Web多媒体搜索技术。重点研究富媒体、多形态数据综合分析和融合等;
3)搜索引擎开放评测平台技术。目的是推动新一代搜索引擎不断优化,促进搜索引擎在中国研发与产业的繁荣和跨越式发展。
中英文的支持可以分别写成:
核高基项目2011ZX01042-001-001
HGJ Grant No. 2011ZX01042-001-001
Patents
-
基于图书领域本体的个性化搜索方法,
发明人: 张铭、孙韬.
专利号:200910238155.8。
授权公告日:2011年8月10日
[link]
-
中文术语自动提取系统及方法,
发明人:穗志方、康为,
专利号:ZL200810119708.3 授权公告日:2011年2月9日
[link]
-
一种搜索引擎动态摘要提取方法,发明人:闫宏飞、树柏涵、李晓明,
专利号:ZL200910076485.1,
授权公告日:2010年12月08日
[link]
-
基于相关性分数分布对查询意图进行分类的方法,
申请号:201110415617.6,
申请日:2011年12月13日,
申请人:闫宏飞、刘晓兵、徐谷子、何靖
[link]
-
基于网页质量的静态索引剪枝方法,
申请号:201110393942.7,
申请日:2011年12月1日,
申请人:闫宏飞、单栋栋、张旭东、李晓明
[link]
-
一种可自动调节参数的云计算系统负载预测方法,
申请号:201110084332.9,
申请日:2011年4月2日,肖臻、宋维佳、黄群
[link]
- 一种基于云计算的互联网应用调度方法,
申请号:201110149707.5,
申请日:2011年6月3日,肖臻、罗海鹏、陈琪
[link]
-
一种社交网络上的热词挖掘和事件挖掘方法,
申请号:201110434991.0,
申请日:2011年12月22日,
闫宏飞、树柏涵、赵鑫、李晓明
[link]
-
一种基于整形小波变换的音频无损压缩编码、解码方法,
申请号:201010281033.X,
申请日:2010年9月14日,
吴玺宏,曲天书,迟惠生,高懿,何文欣,张搏
[link]
-
基于用户日志进行查询推荐的方法及系统,
专利申请号:201110422562.1
专利申请人:北京大学 王继民, 李雷明子, 王建冬
[link]
-
基于自动分类和关键字标注的自动视频注释方法,
申请号:2011103743801
崔斌、姚俊杰、陈琛、舒清雅
[link]
-
基于语言模型的专家推荐方法,
申请号:2011103734751
崔斌、姚俊杰、阴红志、刘晴芸
[link]
-
一种网页信息抽取方法,
申请号:201110409875.3 ,
申请日:2011年12月9日,
申请人:穗志方、李文杰
-
一种Web新网页推荐方法,
申请号:201010155971.5,申请日:2010年04月26日,
张岩
[link]
Software
- 软件著作权:
智能中英文搜索引擎平台系统,首次发表日期:2009年9月20日,登记号:2010SR015259
[link]
- 软件著作权:
基于海量科技资源的跨域查新服务系统
首次发表日期:2011年03月01日 登记号:2011SR086403
(by ZHANG Ming)
[link]
-
软件著作权:基于浅层句法分析的中文语义角色标注系统V1.0 首次发表日期:2009年9月8日 登记号:2011SR026998
(by SUI Zhifang)
[link]
-
软件著作权:基于句子压缩的语义依存分析系统V1.0 首次发表日期:2010年10月11日 登记号:2011SR035833
(by SUI Zhifang)
[link]
Papers marked with the project support
-
Xihong Wu, Meng Zhang, Xiaojun Lin: Parsing-based Chinese word segmentation integrating morphological and syntactic information. NLPKE 2011: 114-121
[pdf]
-
Meng Zhang, Xiaojun Lin, Xu Dai, Xihong Wu: Parsing-based automatic Chinese term extraction. NLPKE 2011: 122-125
[pdf]
-
Luo D.S., Wang Y., Wu X.H., “Active Online Learning of the Bipedal Walking”, IEEE-RAS International Conference on Humanoid Robots, Bled, Slovenia, October 26 - 28, 2011.
[pdf]
-
Pang Z.H., Tu S.K., Su D., Wu X.H., Xu L., “Discriminative training of GMM-HMM acoustic model by RPCL learning”, Frontiers of Electrical and Electronic Engineering in China, vol.6(2), pp.283-290, 2011.
[pdf]
-
Pang Z.H., Wu X.H., Xu L., “Discriminative training of GMM-HMM acoustic model by RPCL type Bayesian Ying-Yang harmony learning”, ISCIDE 2011, Xi’an, China, October 23-26, 2011.
[pdf]
-
Junjie Yao, Bin Cui, Yuxin Huang, Yanhong Zhou: Bursty event detection from collaborative tags. World Wide Web 15(2): 171-195 (2012)
[pdf]
- Keyword Query Reformulation on Structured Data ,ICDE 2012. to appear.
[pdf]
-
Junjie Yao, Bin Cui, Gao Cong, Yuxin Huang: Evolutionary taxonomy construction from dynamic tag space. World Wide Web (2012)
[pdf]
- Provenance-based Indexing Support in Micro-blog Platforms, ICDE 2012. to appear.
[pdf]
-
Wenjie Li, Zhifang Sui, A hybrid pattern-based method of extracting concept instances and concept attributes,P 1203-1211, Journal of compuational information systems, Volume 8. Number3
-
Xingxing Zhang, Zhifang Sui, Semantic class learning with deep coordinate structures in web pages,P 1245-1254, Journal of compuational information systems, Volume 8. Number3
-
焦妍、王厚峰、张龙凯,基于条件随机场与 Web数据的缩略语预测,中文信息学报 2012(2)62-68
[pdf]
-
张龙凯、王厚峰,文本摘要问题中的句子抽取方法研究,中文信息学报 2012(2)97-101
[pdf]
-
Lei Zhang, Jian Tang, and Ming ZhangIntegrating Temporal Usage Pattern into Personalized Tag Prediction. APWeb 2012. Springer LNCS 7325, 354-365.
[pdf]
-
燕飞、张铭、孙韬、肖珑,
基于网络特征的用户图书借阅行为分析——以北京大学图书馆为例,
情报学报。2011,30(8):875-882
[pdf]
-
Ming Zhang, Sheng Feng, Jian Tang, Bolanle Ojokoh, Guojun Liu. Co-Ranking Multiple Entities in a Heterogeneous Network: Integrating Temporal Factor and Users' Bookmarks. Accepted as long paper by ICADL 2011.
[pdf]
-
Xiaolong Wang, Furu Wei, Xiaohua Liu, Ming Zhou and Ming Zhang. Graph-based Sentiment Classification for Hashtags in Twitter. CIKM 2011, Glasgow, UK. PP1031-1040.
[pdf]
-
Fei Yan, Shaowei Cai, Ming Zhang, Guojun Liu and Zhi-Hong Deng. ”A Clique super position Model for Social Networks”. Sci China Inf Sci, 2012 55
[pdf]
-
王晟,王子琪,张 铭. 基于BPR的微博推荐算法. SEWM 2012长文录用,被推荐到《计算机研究与发展》期刊
-
Shan Jiang, Lidong Bing, Bai Sun, Yan Zhang, and Wai Lam.
Ontology Enhancement and Concept Granularity Learning: Keeping Yourself Current and Adaptive.
In the Proceedings of the 17th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2011),
pp.1244-1252, San Diego, CA, US. August 21-24, 2011
[pdf]
-
Jiazhen Nian, Shan Jiang, Congrui Huang, and Yan Zhang. “CCE: A Chinese Concept Encyclopedia Incorporating the Expert-Edited Chinese Concept Dictionary with Online Cyclopedias”. To appear in the 7th International Conference on Advanced Data Mining and Applications (ADMA 2011), Beijing, China. December 18-20, 2011 (full paper, oral presentation)
[pdf
-
Jinjing Ma and Yan Zhang. Who Resemble You Better, Your Friends or Co-visited Users. In the 14th Asia-Pacific Web Conference (ApWeb 2012), Kunming, China. April 11-13, 2012
[pdf]
-
Jiazhen Nian, Shan Jiang, Congrui Huang, and Yan Zhang. CCE: A Chinese Concept Encyclopedia Incorporating the Expert-Edited Chinese Concept Dictionary with Online Cyclopedias. In the 7th International Conference on Advanced Data Mining and Applications (ADMA 2011), pp.201-214, Beijing, China. December 18-20, 2011
[pdf]
-
王继民,李雷明子,孟涛.
Web搜索引擎日志挖掘研究框架[J].
数字图书馆论坛,
2011. (8): 25-31.
[pdf]
-
Wang Jiandong, Lilei Mingzi, Wang Jimin. A Study on Chinese University Users’ Academic Search Behavior Based on Log Mining. The 2nd International conference on computer and Management (CAMAN 2012).
[pdf]
-
Xin Zhao, Rishan Chen, Kai Fan, Hongfei Yan and Xiaoming Li. A Novel Burst-based Text Representation Model for Scalable Event Detection. ACL 2012, to appear
-
Dongdong Shan, Shuai Ding, Jing He, Hongfei Yan, Xiaoming Li: Optimized top-k processing with global page scores on block-max indexes. WSDM 2012: 423-432
[pdf]
-
Dongdong Shan, Wayne Xin Zhao, Jing He, Rui Yan, Hongfei Yan, Xiaoming Li: Efficient phrase querying with flat position index. CIKM 2011: 2001-2004
[pdf]
-
Yang Lu, Jing He, Dongdong Shan, Hongfei Yan: Recommending citations with translation model. CIKM 2011: 2017-2020
[pdf]
-
Rui Yan, Jie Tang, Xiaobing Liu, Dongdong Shan, Xiaoming Li: Citation count prediction: learning to estimate future citations for literature. CIKM 2011: 1247-1252
[pdf]
-
Rui Yan, Jian-Yun Nie, and Xiaoming Li.
Summarize What You Are Interested In: An Optimization Framework for Interactive Personalized Summarization.
In Proceedings of the Empirical Methods in Natural Language Processing (EMNLP 2011),
pages 1342-1351, Edinburgh, United Kingdom, July 27-31, 2011.
[pdf]
-
Xin Zhao, Jing Jiang, Jing He, Yang Song, Palakorn Achanauparp, Ee-Peng Lim and Xiaoming Li. Topical keyphrase extraction from Twitter. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-HLT'11) (long paper), pages 379-388, 2011. (26% acceptance)
[pdf]
-
Jing He, Wayne Xin Zhao, Baihan Shu, Xiaoming Li, Hongfei Yan. Efficiently collecting relevance information from clickthroughs for web retrieval system evaluation. SIGIR 2011: 275-284
[pdf]
-
一种基于文档重要度的静态索引剪枝方法,
李晓明,单栋栋
华南理工大学学报(自然科学版)
Vol. 39 No.4, 2011
[pdf]
-
陆炀,陈翀,何靖,单栋栋,闫宏飞. 基于翻译模型的引文推荐, 已于2011年11月8日在线发表.
[link]
示范基地
北京昌平区五环以外昌平区十三陵镇西山口北京大学昌平校区,A楼109B房间。邮编 102249
-
房间装修完成
-
工作人员已经就绪,正在为本项目集中工作。
人才培养
-
北京大学将在本单位的支持下,培养博士后4人,博士生40人,硕士生87人,
-
预计项目结束前将有2名博士后出站、5名博士生毕业、20名硕士生毕业。
- 开设了大规模数据处理课程
[link]
- 邀请了国外著名教授聂建云来北大开设信息检索课程
[link]
-
邀请交流讲座若干