天网搜索:燕穹的基石
简介

  • 由北大网络实验室研制开发的“天网”中英文搜索引擎系统是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,并于1997年10月29日正式在CERNET上向广大Internet用户提供web信息导航服务。在“天网”系统对外提供服务期间,广泛采纳用户的意见和建议,不断地改进其服务质量,2000年初 新成立的“天网”搜索引擎课题组在国家973重点基础研究发展规划项目基金资助下,秉承老的开发队伍的优良传统,将致力于探索和研究中英文搜索引擎系统的关键技术,以便向广大用户提供更为快速、准确、全面、时新的海量web信息导航服务。
  • “天网”门户: http://e.pku.edu.cn
访问天网主页
特色

  • 全国最大的非商业搜索引擎 每天接收50万人次的访问
  • 天网网页 提供对6000万个网页查询服务
  • 天网文件 提供对2000万个非网页文件的查询服务
  • 结果中查询 不断求精
  • 网页快照 重现历史网页
  • 天网搜霸 从记忆地址中解放出来
进入天网搜索讨论区
技术能力

  • 收集技术:每天收集400万网页的能力
  • 分析技术:每秒钟分析20个网页的能力
  • 存储技术:超过1亿网页的管理维护,动态存取能力
  • 索引技术:对上亿网页进行索引,提供服务,每秒钟接纳100个用户查询,在秒级给出响应的能力
  • 不仅是“技术能力”,而且有实实在在的硬软件设施
数据规模
天网搜集纪录
时间 规模 网页 站点
机器(台) 起始URL数 总数 均大小(K) 总数 平均网页数
2001.6 12 7 38,572,695   41,714 925.7
2001.12 12 1 47,707,998   46,669 1022.3
2002.1 12 1 24,158,849 12.9 44,028 548.7
2002.3 18 1 57,027,324 8.95 45,930 1241.6
第三次搜集数据具有代表性:
  • 覆盖了中国89.6%的网站,45.2%的网页。
  • 类似于宽度优先搜索的策略
  • 覆盖了93.2%有影响力的网站
天网的过去、今天和 未来
分类目录,面向主题,个性化

  • 粗线段表示相应系统的开发周期
  • 天网3.0会有些什么新惊喜?
天网的背后

  •  在天网的背后,有强大的软硬件平台的支持,更有一个年轻进取的团队。
点击欣赏图片

[联系我们|返回主页]

Copyright© 2002 北京大学网络与分布式系统实验室