发布日期:2024-12-25 访问量:
12月23日上午,数据工程与知识工程教育部重点实验室举办了第四期德科前沿技术讲座。本期讲座的报告主题为“Nearest Neighbor Search on High-Dimensional Vector Data”,由南洋理工大学Cheng Long副教授主讲,由数据工程与知识工程教育部重点实验室范举教授主持。
讲座伊始,范举教授对报告人和参与师生表示欢迎,并介绍了讲座报告人的研究领域及研究成果。
Cheng Long副教授首先阐述了高维向量数据最近邻搜索(ANN)的研究背景。在现代人工智能和大数据时代,高维向量数据被广泛用于表示非结构化数据的语义,并支持诸多下游机器学习任务,如信息检索、推荐系统和检索增强的语言模型等领域。向量数据库中最重要的任务是找到与给定向量最相近的前k个向量(即最近邻搜索),该任务对数据分析和系统优化具有重要意义。低维情况下,树形结构等传统方法表现优异,但在高维情境下,这些方法因复杂性和效率问题面临瓶颈。近年来,近似最近邻搜索方法成为学术界和工业界的研究热点。
随后,Cheng Long副教授介绍了当前主流的高维向量数据近似最近邻搜索方法,这些方法大致分为四类:基于量化、基于图、基于哈希以及基于树的结构。基于量化的方法,例如倒排文件(IVF)方法,通过对数据进行聚类,并针对查询向量定位若干最近簇,进一步在这些簇中进行最近邻搜索。此类方法在工业界应用广泛;基于图的方法,在索引阶段构建一个图,将相近向量用边相连,通过多跳搜索方式找到最近邻,该方法在实践中展现出较好的性能;基于哈希的方法,虽然提供了理论保证,但在实际场景中竞争力有限;基于树的方法,早期提出的树形结构方法在高维场景中效率较低,逐渐被其他方法替代。
接下来,Cheng Long副教授进一步分享了其团队在高维向量数据最近邻搜索领域的最新研究成果:
第一,ADSampling:灵活自适应的采样算法。团队通过优化距离比较操作(Distance Comparison Operation,DCO)大幅减少了计算开销。研究发现,传统的最近邻搜索中,80%-90%的时间花费在DCO上,而其中大多数的距离比较结果为负值,因此具有优化潜力。团队提出了ADSampling算法,这是一种灵活且自适应的采样方法,旨在通过精度调整和阈值判断技术,减少无效的距离计算。ADSampling基于维度扫描的思路,通过提前判断每个维度是否已超出阈值,若已确定该维度不可能影响结果,便跳过该维度的距离计算,从而大幅降低计算复杂度。实验结果表明,在负样本集上,ADSampling算法成功减少了计算复杂度,而在正样本集上,通过精度调控显著降低了误差。值得注意的是,ADSampling算法仅使用7%的维度,就能够实现超过99.9%的召回率,显示出其在高效性和准确性方面的巨大优势。此外,ADSampling可以与传统的IVF等算法结合,进一步提升整体性能。在各种高维数据集上的实验验证了其较低的计算成本和更高的检索效果。
第二,RaBitQ:量化技术的优化。针对向量数据存储需求及计算复杂性问题,团队设计了一种具备理论保证的量化方法RaBitQ。通过向量归一化与随机性引入,RaBitQ能够在数学期望上实现理论严格等价,同时在实验中表现出极优的速度和精度。与PQ和OPQ等方法相比,RaBitQ在同等精度下速度提升三倍,并且适配性强,可与其他ANN算法结合。
第三,iRangeGraph:结合属性的高效搜索。考虑向量数据的属性限制(如范围过滤),团队开发了一种改进的图结构方法。通过灵活处理不同过滤场景并优化图算法,实验表明该方法在效率和精度上均取得显著提升。
最后,Cheng Long副教授展望了高维向量数据搜索的未来发展方向,包括RaBitQ在向量压缩率调节及大模型轻量化压缩中的潜力,以及结合类别限制等过滤条件的增强型最近邻搜索(AKNN)在推荐系统和检索增强生成模型(RAG)中的应用前景。他指出,未来团队将进一步优化算法性能,并探索新场景下的实际应用,为高维向量数据的处理与分析提供更高效的解决方案。
讲座后,老师和同学们就讲座内容,与Cheng Long副教授展开了热烈讨论和交流。本期德科前沿技术讲座圆满结束。