发布日期:2017-07-13 访问量:
重点实验室DB-IIR实验室自然语言处理小组近年在文本表示学习领域开展研究工作,最近在词向量和文本表示方面取得突破,取得系列研究成果。
在刚刚公布的自然语言处理国际会议EMNLP2017评审结果中,该小组共有2篇长文被录用,还参与了1篇短文的工作。
以博士研究生李博放为第一作者的论文《Investigating Different Syntactic Context Types and Context Representations for Learning Word Embeddings》该论文深入探讨了线性的、基于依赖树的、位置相关的、语法类型相关的多种上下文类型在词语类比、命名实体识别、词性标注、文本分类等多种任务上的效果,并针对不同任务给出了词向量上下文的选取建议。
以博士研究生赵哲为第一作者的论文《Ngram2vec: Learning Improved Word Representations from Ngram Co-occurrence Statistics》 将N-gram信息引入到多种主流的词向量模型中。新的模型不仅可以学习到更好的词向量,同时还能得到高质量的n-gram向量。这些预训练的向量对于后续NLP任务都是非常有用的资源。此外,他们还参与了一篇短文的工作,该工作将先验知识引入到卷积神经网络中。新的模型在几乎不增加计算量的基础上,提高了卷积神经网络在一系列文本分类数据集上的准确率。
上述成果是在刘桃副教授与杜小勇教授的共同指导下完成的。此前,他们还在人工智能国际顶级会议AAAI,欧洲人工智能大会ECAI,国际计算语言学会议COLING上发表了相关论文。
EMNLP是Conference on Empirical Methods in Natural Language Processing ,在CCF会议列表中,属于人工智能与模式识别领域的B类会议,在自然语言处理领域是公认的国际顶级会议之一。