Web InfoMall:“Turn the Web into a Database”
简介

  • “中国Web信息博物馆”(Web InfoMall)是在国家973和985项目支持下,北京大学计算机系网络与分布式系统实验室开发建设的中国网页历史信息存贮与展示系统。目前已经维护有一亿七千万中文网页,并以平均每月一千万网页的速度扩大规模。
  • 中国Web信息博物馆主页: http://www.infomall.cn
访问Web InfoMall
特色

  • 全国最大、最完整(也许是唯一)的互联网内容信息收集与仓储中心
  • 典型历史网页的展示
进入Web信息博物馆讨论区
技术能力

  • "成批"收集网页信息的能力,即每隔2-3个月收集一次,每次5000万左右网页
  • 约1.5亿网络信息的动态管理能力,即支持3批数据的在线访问
  • 用户可以通过浏览器,在网址上一篇一篇地浏览历史网页
数据规模
Web InfoMall的数据量
07/26/2002 第四次搜集 63,970,000网页 860 GB
06/17/2002 第三次搜集 41,270,000网页 560 GB
03/27/2002 第二次搜集 35,996,030网页(离线) 500 GB
01/18/2002 第一次搜集 24,158,849网页 300 GB
未来的Web InfoMall

  • 实现"持续"收集的能力,即每天都去发现、收集新增加或者更新了的信息,预计每天约200万。这样做的好处是能够更及时、更全面的把握网上信息的情况
  • 实现10亿网络信息的动态管理能力,这是国家信息化建设突飞猛进发展的需要
  • 实现"收集信息的程序访问",即要允许用户(做信息增值开发的用户)通过程序来动态获取我们收集的数据,这是充分发挥海量网络信息作用的必由之路
  • 在2004年能够漫游2001年的中国Web
  • 给定一个URL和一个时间,实时得到其内容(和地理位置无关)
  • 得到和时间有关的重要统计信息
    --例如“中国西部网页数的增长曲线”
  • 按关键词和短语的分类查询
    --尝试面向主题和个性化服务
Web InfoMall全接触

  •  Web InfoMall是以天网搜索为基础的更高层,更深入的web信息服务体系。
点击欣赏图片

[联系我们|返回主页]

Copyright© 2002 北京大学网络与分布式系统实验室