新闻资讯
网站首页 >  新闻资讯
美国罗格斯新泽西州立大学计算机系助理教授邓栋博士访问重点实验室并作报告

发布日期:2021-04-26  访问量:

    4月22日下午,重点实验室张峰博士的邀请,美国罗格斯新泽西州立大学计算机系助理教授邓栋博士于信息楼4层报告厅作了名为Text Curation at Scale的报告,介绍了文本大数据中重复数据检测的研究成果


    邓栋博士首先介绍了文本数据在现实世界中的重要性,指出现实世界中80%以上的数据都是无结构的文本数据,特别是有30%-45%的互联网文本数据都是近似重复的,因此对文本数据进行重复检测是一个十分重要的工作。其次,他重点介绍了在两个近似长文本中找到重复的片段对的计算问题,受限于该问题的高计算成本,现有的方法主要是基于规则的启发式方法,然而,这种方法在一些下游应用中的会降低召回率,比如重复数据删除和论文查重。邓博士的方法是基于min-hash的算法将重复检测转化成了一个基于采样的问题,它保证了能够找到大部分的近似文本。但是这个方法需要寻找两个文本中所有文本对构成的窗口,其时间复杂度为,通过引入“紧窗”这一概念,对窗口的特性进行限制,从而将时间复杂度降到了。实验结果表明,该方法在检测率上优于现有的工作,并且大大减少了整体处理时间。

    报告结束后,同学们踊跃提问。邓博士认真仔细地一一回答了同学们的问题。针对同学们各自的研究课题,邓博士都做出了建设性的意见,参加报告会的同学们都表示受益匪浅。


邓栋个人简介:

邓栋,美国罗格斯新泽西州立大学计算机系助理教授,博士生导师。于清华大学获得博士学位并在麻省理工学院从事博士后研究。研究方向为数据管理,数据库系统,数据科学,数据策展和数据集成。在数据库三大会议SIGMOD, PVLDB和ICDE上共发表三十余篇研究长文,文章共被引用1600余次。常年担任数据库、数据挖掘和信息检索领域著名会议SIGMOD, PVLDB, SIGKDD和SIGIR的程序委员会委员。