863课题《基于peer-to-peer计算模型的海量分布式文件系统

l      课题概要

分布式文件系统已经发展了将近20年,并且取得了巨大的成功,典型的系统有:NFS,AFS、Coda等。这些系统的主要功能是:支持用户在一定网络范围内(例如:局域网、校园网等),对一定数量的分布文件进行透明访问。随着Internet的出现,人们研制了面向Internet的分布式文件系统,例如:Jade,Ufo,Alex和WebFS等,支持用户在Internet范围内对一定数量的分布文件进行透明访问。

不管是传统分布式文件系统还是面向Internet的分布式文件系统,它们从可靠性、扩展性、易用性及性能等诸多方面,距离目标 – “支持海量用户将文件保存在Internet上”的要求,都存在较大的差距。而这些不足正是这些系统所共同采用的“层次式”体系结构的所存在的固有问题,随着系统规模的增大,这些缺陷会愈加明显。

近年来,人们提出了一种替代“层次式”结构的分布式系统体系结构 – Peer-to-peer结构,分布式文件系统下一步的一个重要发展方向就是建立基于peer-to-peer结构的系统,以克服传统分布式文件系统的缺陷。目前,几家著名大学和公司正在研制这类系统原型,例如:UC Berkeley的OceanStore项目,Microsoft的Parsite项目等。

另一方面,在科学计算与高性能计算领域,针对最近几年Internet环境下海量数据的管理与使用需求的增加,人们提出了称为Data Grid的面向广域网的数据管理解决方案。该方案的策略为:在现有的数据管理系统(如:文件系统和数据库系统)的基础之上,提供一层中间件,利用中间件对这些分布的、异构的系统进行统一管理,使其形成一个整体,共同对外提供数据服务。典型的这类系统有:GASS, Data Grid,SRB等。由于这类系统所面向的用户多为数量有限的专用用户,而且它们采用的多为集成的方法,它们还是无法满足海量用户的海量存储要求。

本课体的目标就是以面向Internet的文件存储系统为对象,研究构造这样的系统所涉及到的理论和技术问题,目标是将Internet上大量分散的、独立的、异构的文件服务器组织成一个逻辑意义上的整体,形成面向公众的可扩展的高效的高可靠海量文件服务基础设施。

主要研究内容:

1. 存储体系结构问题。目前的分布式文件系统中没有得到很好解决的关键问题是层次结构所导致的I/O瓶颈问题。我们计划采用peer-to-peer计算模型,来避免或缓解当前网络服务器系统中存在的I/O瓶颈问题和可扩展问题,充分利用网络资源,从而建立一种具有高可扩展性和高可用性,高度灵活的分布式存储体系结构。

2.   Peer-to-Peer路由算法。路由技术是Peer-To-Peer计算模型中的核心技术之一,它决定着系统体系结构的选择与组织策略,许多相关领域目前都在进行相应的研究工作,是国际上研究的热点问题,我们拟对此问题进行重点研究。

3. 分布式索引、检索问题。Internet上大量分散的、独立的、异构的存储单元形成了海量信息环境,我们期望通过建立分布式的信息索引、服务注册和检索机制提供对这些信息的高效准确查询服务。

4.  资源访问效率问题。广域范围、海量信息环境下网络传输状况以及服务器I/O结构性能是影响资源访问效率的重要因素。除了采用常用的cache策略和负载平衡理论,我们还提出采用文件拆分冗余存储和并行传输的方法提高资源访问效率。同时为了缩短用户访问响应时间,我们将通过实用的网络节点测距算法,使得文件存储在距离客户端最近的文件服务器上。

5.  分布式安全体系问题。采用非集中式系统安全与信任关系模型对于网络实体进行安全管理,从而实现网络实体之间的有效协同,共同完成相应的存储服务。

 

l        课题进展

2002.10 月  通过中期检查

2002.9 月  燕捷系统试运行,情况良好,注册用户总数达一千多人。

2002.7月   完成燕星2.0的设计以及重要算法的模拟和论证

2002.6 月  设计燕捷系统

2002.5 月  燕星1.0开始试运行,此后至今,不断修改,完善,性能提高。

2002.2 月  获得批准

2001.10月  提交申请(燕星1.0的原型已经完成)

 

l    论文发表

1.  HAN Hua, GUO Chaoyang, DAI Yafei, LI Xiaoming , "A Scheme to Construct Global File System", WISE2001 proceedings, IEEE Computer Society Press,Dec.2001

2.  HAN Hua, GUO Chaoyang, DAI Yafei, LI Xiaoming, "Global File Store: A Massive Storage System on the Internet - Concept and Design", ICCNMC01 proceedings, IEEE Computer Society Press, Oct.2001, pp165-175

3.  韩华,代亚非,李晓明,郭朝阳,“一种基于分布式LDAP的分布对象名字服务机制”,《高技术通讯》,已录用待发表

4.  王庆波,代亚非,田敬,“Peer To Peer计算技术的应用领域与典型问题讨论”,《计算机科学》,已录用待发表

5.  郭朝阳,代亚非,韩华,“燕星系统的设计及其实现中的技术问题”,《计算机工程与应用》,已录用待发表

6.  綦宏伟 代亚非 李晓明,“基于Java/Swing的通用文件管理器设计模式”,《计算机工程与应用》,已录用待发表

7.  綦宏伟 代亚非 李晓明, “基于JFC的数据传送机制的应用”, 全国第五届Java技术及应用学术交流会,北京, 2002年9月

8.  曲民,郭朝阳,代亚非,“燕星”文件系统的性能优化策略”,全国第五届Java技术及应用学术交流会,北京, 2002年9月

9.    敬,代亚非,“JavaMail结合JSP实现中文邮件收发系统”,全国第五届Java技术及应用学术交流会,北京, 2002年9月