本课程教授用于处理大数据(尤其是网络大数据)的紧凑数据结构及相应的算法、概率方法和统计工具。 目前最大的大数据或许就是因特网上的数据流了。 对这个大数据的分析能为提高网络性能、网络应用的用户体验及网络安全提供理论基础。然而网络大数据无法保留。 在这个背景下,本课程讲授一系列在过去30年里逐渐发展起来的紧凑数据结构和它们的理论分析,这些数据结构可以用来把大数据变小,以便于存储和应用。 本课程的数据结构和算法可以分为两类:
(1)计数与计模,包括probabilistic counting, bitmap algorithms, FM sketch, hyperloglog sketch, virtual bitmap, virutal FM sketch, virtual hyperloglog, countMin, counter braids, randomized counter sharing, and virtual counters;
(2)成员查找与分类,包括Bloom filters, counting Bloom filters, Bloomier filters, blocked Bloom filters, multi-set filters, and multi-hashing tables。 学生不但将掌握这些数据结构和算法,而且要学习它们在网络数据测量、安全、及其它领域中的应用。 不但将掌握相关理论知识,而且要实现一部分算法,并在实际网络数据上应用。
陈世刚(1971年5月生,sgchen8@gmail.com),佛罗里达大学正教授(2002年入校)、博士生导师、IEEE Fellow、ACM Distinguished
Scientist、IEEE Communication Society Distinguished
Lecturer、佛罗里达大学计算机系网络实验室主任,长期从事网络与信息安全的研究,在网络大数据、网络算法、射频标签、网络安全、物联网等方向研究取得了一系列开拓性成果。以优异教学和科研获2017年University
of Florida Term Professorship。发表专著5部,期刊会议论文180余篇,CCF A类69篇,总引用数超过9700余次(Google
Scholar),引用超过1000次的论文3篇。拥有12项美国授权专利,其中作为主要发明人的10项专利应用在思科安全策略管理软件中(Cisco Secure Policy Manager,CSPM)中。
杨仝,北京大学信息科学技术学院助理研究员。目前主要从事网络大数据研究,包括网络流量测量、Bloom filters、路由表查找、Sketches、键值存储系统、哈希表等。在国际著名会议上发表多篇论文,包括SIGCOMM、VLDB、ICDE、ICNP、ICDCS、IWQoS等。作为项目负责人主持国家自然科学基金项目2项、作为分课题负责人负责重点研发项目一项。
Introduction to Big Data and Compact Data Structures 2学时
Counting and Cardinality Algorithms
Membership Lookup and Classification
课堂授课为主,课后练习、编程为辅。
平时(30%),编程(40%),考试(30%)
作者 | 书名/论文名称 | 出版社 | 出版年 | |
---|---|---|---|---|
1 |
Shigang Chen, Min Chen, Qingjun Xiao |
Traffic Measurement for Big Network Data |
Springer, ISBN 978-3-319-47340-6 |
2016 |
2 |
Tao Li, Shigang Chen |
Traffic Measurement on the Internet |
Springer, ISBN: 978-1-4614-4850-1 |
2012 |
3 |
Kyu-young Whang, Brad T. Vander-Zanden, Howard M. Taylor |
A Linear-Time Probabilistic Counting Algorithm for Database Applications |
ACM Transactions on Database Systems, Vol. 15, No. 2 |
1990 |
4 |
Cristian Estan, George Varghese, Mike Fisk |
Bitmap Algorithms for Counting Active Flows on High Speed Links |
ACM Internet Measurement Conference |
2003 |
5 |
Peter Lieven, Bj¨orn Scheuermann |
High-Speed Per-Flow Traffic Measurement with Probabilistic Multiplicity Counting |
IEEE INFOCOM |
2010 |
6 |
Philippe Flajolet, Éric Fusy, Olivier Gandouet and Frédéric Meunier |
HyperLogLog: the analysis of a near-optimal cardinality estimation algorithm |
Conference on Analysis of Algorithms |
2007 |
7 |
Qingjun Xiao, Shigang Chen, Min Chen, Yibei Ling |
Hyper-Compact Virtual Estimators for Big Network Data Based on Register Sharing |
ACM SIGMETRICS |
2015 |
8 |
Yi Lu, Andrea Montanari, Balaji Probhakar, Sarang Dharmapurikar, and Abdul Kabbani |
Counter Braids: A Novel Counter Architecture for Per-Flow Measurement |
ACM SIGMETRICS |
2008 |
9 |
Andrei Brodery, Michael Mitzenmacherz |
Network Applications of Bloom Filters: A Survey |
Internet mathematics |
2004 |
10 |
Fang Hao, Murali Kodialam, T. V. Lakshman, and Haoyu Song |
Fast Dynamic Multiple-Set Membership Testing Using Combinatorial Bloom Filters |
IEEE/ACM TRANSACTIONS ON NETWORKING, VOL. 20, NO. 1 |
2012 |