发布日期:2024-12-12 访问量:
随着人工智能迈入大模型时代,技术正从单模态向多模态演进,并逐步与各行业深度融合。12月11日上午,数据工程与知识工程教育部重点实验室邀请中国工程院院士、清华大学计算机系教授郑纬民作主题为“支持大模型训练/推理的计算机系统的研究与思考”的讲座。本次讲座是德科讲坛系列第三期,郑纬民教授分享了他对大模型生命周期、行业格局以及国产计算系统发展的独到见解,并提出一系列创新解决方案,为推动大模型技术的发展提供了清晰路径。
数据工程与知识工程教育部重点实验室主任杜小勇主持讲座
郑纬民教授首先梳理了大模型生命周期的五个关键环节:数据获取、数据预处理、模型训练、模型微调和模型推理,并逐一剖析其中的技术挑战与应对策略。在数据获取阶段,他指出传统文件系统难以高效管理海量多模态小文件,提出了解耦合目录树存储方案,为提升元数据管理能力提供了新思路。在数据预处理阶段,通过自研的“诸葛弩”大数据处理引擎,大幅优化了数据清洗与格式转换过程,实现了动态负载均衡和高效数据读入。在模型训练阶段,针对GPU存储不足和硬件高负载问题,团队开发了分布式检查点存储系统,提高了训练效率和稳定性。在模型微调阶段聚焦于将大模型与行业需求无缝对接,而模型推理阶段则通过创新的流水线计算方案,利用CPU和主存高效解决了KV-Cache存储瓶颈。
在行业生态分析中,郑纬民教授将当前从事大模型的企业归为三类:专注研发大模型的企业,推动技术边界的拓展;探索“大模型+行业”融合的企业,为具体应用场景赋能;以及为大模型提供计算机系统支持的企业,构筑底层技术基础。这种分类清晰展现了大模型生态系统的协同发展格局。
对于国产计算系统的未来发展,郑纬民教授提出了核心基础软件建设的重要性。他以团队研发的“八卦炉”为例,展示了国产智算系统的潜力。“八卦炉”在神威平台、沐曦芯片等多场景应用中表现优异,其性能已与国际顶尖技术对齐甚至有所超越,为国产芯片和算力生态的完善提供了强有力支持。此外,其团队还通过加速国产芯片集群和优化推理卡等多种方案,为实现国产AI生态系统的全面提升奠定了基础。
展望未来,郑纬民教授提出了两点战略思考:一是构建国产万卡系统的重要性,这将成为大模型技术发展的关键支柱;二是当前异构卡和异地卡联合训练仍存在局限性,需要通过技术优化和协同设计进一步提升效率。这些洞察高瞻远瞩,为我国在全球人工智能技术竞争中赢得更大优势提供了明确的方向。
讲座期间,参会师生全神贯注地聆听,并在结束后踊跃提问。郑纬民教授耐心细致地解答了每一个问题,现场互动气氛热烈。
随着讲座的圆满落幕,与会者纷纷表示受益匪浅。郑纬民教授的研究不仅为大模型技术的深层探索指明了道路,也为国产计算系统的崛起注入了强劲动力。随着这些技术与产业理念的不断落地,中国人工智能技术将迈向更广阔的未来。