发布日期:2022-03-21 访问量:
我院本科四年级学生万韦涛和张晨阳同学,利用课余时间在数据工程与知识工程教育部重点实验室进行科学研究。在张峰副教授的具体指导下,两位同学开展数据库领域的研究,取得了重要的成果。近日,该课题组撰写的论文被CCF A类会议ACM SIGMOD(Special Interest Group on Management Of Data)2022录用,展现出了我院学子超强的学习和科研能力。
SIGMOD关注数据库管理系统和数据管理技术的原理、技术和应用,是数据库领域最重要和最具选择性的国际会议,国际影响力极高。SIGMOD审稿过程严格,论文录用率低,对学术成果的要求高,鲜有本科生能参与科研在这类顶级期刊上发表论文。
论文题目:CompressDB: Enabling Efficient Compressed Data Direct Processing for Various Databases
论文作者:张峰、万韦涛(人大信息学院本科四年级学生)、张晨阳(人大信息学院本科四年级学生)、翟季冬(清华大学)、柴云鹏、李海翔(腾讯公司)、杜小勇
论文概述:在大数据管理系统中,直接在压缩数据上进行操作,可以获得存储空间的节约和处理性能的提升。但是,当前的此类系统只能支持数据查询,而一个完整的大数据管理系统必须同时支持数据查询和数据操作。我们开发了一个新型存储引擎,命名为 CompressDB。CompressDB 支持压缩数据上的直接数据处理,它有如下优点。第一,利用上下文无关语法来压缩数据,压缩效率高。第二,可以直接集成到数据库底层文件系统中,使得数据库系统无需做任何改变。第三,在存储系统中执行数据查询和数据操作,而不需要把大数据转移到内存中,极大提高了系统效率。我们通过实验验证了 CompressDB 可以支持多种类型的数据库系统,包括 SQLite、LevelDB、MongoDB 和 ClickHouse。我们还用六个具有不同大小、结构和内容的真实应用中的数据集测试了 CompressDB 在单机和分布式环境下的性能。实验表明 CompressDB 平均达到 40% 的吞吐量提升和 44% 的延迟缩短,并实现 1.81 倍的压缩率。
作者信息: