2025年10月17日晚,91直播
第四十期“知存讲座”暨信息科学前沿与产业创新课程在理科教学楼107教室顺利举办。本次讲座主题为“分布式LLM推理在阿里云PAI平台的实践”,北京大学校友、阿里云人工智能平台PAI团队高级技术专家赵汉宇受邀主讲。讲座由人工智能研究院李萌老师主持。
讲座围绕“AI普惠化的关键——推理服务”展开,内容涵盖LLM推理基础、分布式推理的系统挑战与技术趋势,以及阿里云PAI平台的实践案例,层层深入,兼具技术深度与产业视野。

赵汉宇讲授
赵汉宇首先指出,AI已成为“史上最昂贵的计算负载”,提升效率是当前的核心课题。他提出两大方向:一是开发高效的模型结构,降低固有计算量;二是通过系统工程优化,在给定计算量下提升速度、降低成本,包括算子库优化、分布式并行策略、集群调度等手段。由此,他引出本次讲座的核心观点:推理服务是实现AI普惠化的关键。

同学们认真听讲
在第一部分“LLM推理101”中,赵汉宇系统介绍了Self-Attention、Transformer、Next-Token Prediction、Prefill与Decode等关键概念,并指出当前优化的核心目标在于:在满足服务等级协议(SLA)的前提下,实现成本最小化。
第二部分聚焦“分布式推理的系统挑战与技术趋势”。赵汉宇指出,当前面临四大挑战:
1.Prefill与Decode阶段的特性差异:两者在计算密度、并行策略与硬件适配方面存在显著不同,且相互干扰。如今可以执行“PD分离”策略,实现计算阶段解耦,分别采用最优并行策略与硬件资源,有效消除干扰。
2.超大规模MoE模型的推理难题:为以较小计算量支撑更大参数量,业界引入“大规模专家并行(EP)”架构,如为人熟知的DeepSeek V3模型。
3.工况高度动态:负载波动、请求长度变化、资源供给不稳定等问题,对系统弹性提出更高要求。
4.静态调度与硬性分离的局限性:难以应对P、D阶段负载的瞬时波动,且缺乏弹性的EP架构容易因单点故障导致服务不可用。
在第三部分“分布式推理在PAI的实践”中,赵汉宇介绍了分布式LLM推理在阿里云PAI平台的实践:
1.动态请求调度:通过重调度机制持续优化负载均衡,缓解Prefill对Decode调度的干扰,支持故障与缩容场景下的请求迁移。
2.请求迁移机制:实现运行中请求的无缝迁移,保障服务连续性。
3.弹性专家并行(EP):实现大规模EP的高可用,具备快速故障感知、自动节点跳过、参数分布动态调整等能力,显著提升系统效率。
最后,赵汉宇总结道,分布式推理技术是AI普惠化的必由之路,未来AI发展将朝着更动态、更弹性、更可扩展的方向持续演进。

同学们积极提问
在问答环节,同学们踊跃提问。有同学问到:“PD分离若不明显,是否会牺牲硬件优势?”赵汉宇指出,宏观上应尽量保持分离,微观上可适度放松以兼顾效率。另有同学提出:“算法优化带来的系统效率提升是否值得?”他表示,在可控范围内,适度牺牲模型质量以换取效率提升是具有实际价值的策略。
本次知存讲座在热烈的掌声中圆满落幕。91直播
“知存讲座”将持续开展,邀请信息学科领域的知名人士为本科生介绍信息科学技术学科、产业发展热点和前沿话题,引导青年学子增进专业认知,确立前沿视野,寻找未来感兴趣的发展方向。
讲座也给同学们带来了阿里云算力券的福利,支持模型训练、AI应用搭建等,可以免费领取。//university.aliyun.com/。
摄影 常耘瑞
文字 冯绍杰