近日,数据工程与知识工程教育部重点实验室李彤副教授团队论文被CCF推荐A类国际期刊IEEE Transactions on Computers(TC)录用。该项工作同时获得了国家自然科学基金项目(No. 62202473和62441230),国家自然科学基金创新研究群体科学基金(No. 62221003)、国家自然科学基金重点项目(No. 61932016和62132011)和国家自然科学基金国家杰出青年科学基金(No.62425201)的资助。
论文标题:Accelerating Loss Recovery for Content Delivery Network
论文简介:
一、摘要
数据包丢失显著影响实时视频直播、数据备份与归档服务等基于内容分发网络(CDN)业务的实际用户体验。然而,这篇文章对生产网络的测量研究表明,由于广域网上普遍存在的动态性与突发性等丢包特征,传统丢包恢复机制的效果远未达预期。作者提出一种发送端自适应重传机制ART,其核心目标是以最小的冗余成本实现最短丢包恢复时间。与前向纠错(FEC)技术通过预先发送冗余数据包预防丢包的机制不同,ART本质上属于自动重传请求(ARQ)机制,其特征在于仅针对已丢失的数据包而非未丢失数据包施加冗余传输,从而有效应对实际广域网中复杂的丢包特征模式。作者基于QUIC协议实现了ART机制,并进行了基于真实网络日志的仿真实验与实际网络环境下的部署,结果表明ART可使时延敏感型业务的流完成时间(FCT)降低34%,使吞吐量密集型业务的有效吞吐量提升26%,视频播放卡顿率减少11.6%,同时冗余传输成本节省90%。
二、研究意义
广域网环境中普遍存在的数据包丢失是影响内容分发网络(CDN)服务性能的关键因素,这对于 CDN 的各种业务场景来说都是如此,不管是时延敏感型服务(如直播、远程过程调用服务)还是吞吐密集型服务(如灾难恢复、云迁移)等。以 TikTok的CDN平台为例,实测数据显示,其在土耳其的流量平均数据包丢失率为5.2%,在巴西为3.8%。这种较高的丢包率显著延长了流的完成时间(Flow Completion Time, FCT),因为丢包会引发队头阻塞(Head-of-Line Blocking, HOL),并在丢包恢复延迟过长时,甚至可能导致服务失败,从而严重影响用户体验。
在传输控制领域,主要存在两种基础的丢包恢复机制:前向纠错(Forward Error Correction, FEC)和自动重传请求(Automatic Repeat reQuest, ARQ)。然而,已有研究表明,由于广域网丢包的特性(例如突发性),FEC 在实际环境中往往难以提供理想的恢复效果。尽管已有研究[1]提出了一些针对突发丢包的改进方案,但这些方法通常依赖于CDN 服务器与客户端应用的双端修改,从而在多供应商 CDN 市场中面临部署困难的问题。
大多数现代应用在商用解决方案中主要采用自动重传请求(Automatic Repeat reQuest, ARQ)机制来控制丢包容忍度,即在检测到数据包丢失时触发重传。然而,基于这篇文章的生产网络测量研究,作者发现广域网中的丢包在实际环境中具有显著的动态性(Dynamics)和突发性(Burstiness)特征。传统的基于ARQ的丢包恢复策略由于无法有效适应这些丢包特性,导致了额外的传输延迟,对CDN 服务的性能产生了严重影响。
具体而言,在不同类型的传输场景中,传统 ARQ 丢包恢复机制存在以下两类主要瓶颈:
数据重组饥饿(Data Reassembling Starvation):在时延敏感型传输(如实时直播、交互式游戏、远程过程调用(RPC))中,由于数据包必须按顺序重新组装,任何丢失的数据包都将阻塞后续数据的处理,形成队头阻塞(HOL Blocking)。当丢包率较高或出现突发丢包时,等待丢失数据包的 恢复会显著延迟数据重组过程,导致流完成时间(Flow Completion Time, FCT)增加,进而引发服务卡顿、音视频同步失调,甚至服务中断。
接收缓冲区饥饿(Receiving Buffer Starvation):在吞吐密集型传输(如大规模数据备份、灾难恢复、云数据迁移)中,接收端通常需要持续地填充 接收缓冲区以维持高速数据吞吐。然而,突发丢包会导致部分数据长期缺 失,无法及时填满接收缓冲区,限制了管道的利用效率,进而降低整体吞吐性能(Goodput)。在多流并发传输环境下,缓冲区饥饿问题将进一步加剧,导致网络资源浪费和数据传输速度显著下降。
针对这些挑战,作者提出ART(自适应重传)方案—仅需发送端改造的解决方案。该方案通过两大协同机制突破技术瓶颈:冗余自适应调节和冗余副本调度。在冗余自适应方面,作者采用“测试-验证”机制实现冗余级别的动态调整,并将强化学习技术融入丢包恢复过程,实现冗余级别的智能优化。针对突发丢包问题,副本调度机制采用随机周期发送策略(一个周期等于特定发送速率下的单包传输间隔)。通过这两大核心技术的协同工作,ART能够在保证快速丢包恢复的同时,将冗余流量开销控制在最低水平。

这篇文章的主要贡献包括:1.对广域网环境中的丢包特性进行了大规模的测量研究,揭示了动态性和突发性是实际中丢包的两个关键特征。2.提出了 ART(自适应重传方案),ART 能够根据丢包的动态特性动态调整冗余级别,并能够随机调度每个副本的发送以应对丢包的突发性。作者在QUIC[2]协议上实现了ART原型,并将其部署在测试平台和生产网络中。3.对机器学习在丢包恢复领域进行了初步的探索,使用强化学习来学习广域网中的丢包模式,根据网络状态变化调整冗余级别。作者运用了两种机器学习算法,并在QUIC上分别实现了对应的机器学习算法,部署在测试环境中。
作者简介:

第一作者:李彤
中国人民大学数据工程与知识工程教育部重点实验室副教授、大数据教研室副主任、中国人民大学杰出学者、清华大学博士。长期从事计算机网络、大数据和分布式系统方面的研究和教学工作,主持和参与国家自然科学基金青年、面上、专项项目和华为、腾讯、字节等企业横向项目。曾获华为十大发明奖、总裁奖和ACM SIGCOMM China Rising Star Award等。
个人主页:http://iir.ruc.edu.cn/~litong/

第一学生作者:刘威
中国人民大学2022级硕士研究生,主要研究方向为网络协议和机器学习等。