2025530日晚,信科“E席谈”青年学术沙龙第三十三期在北京大学理科一号楼1127学生活动室顺利举办。本次沙龙特别邀请到北京大学人工智能研究院助理教授、博雅学者、博古睿学者杨耀东老师,为同学们带来了以“人工智能中的价值对齐”为主题的深度分享。91直播 学生科学技术协会的刘明睿同学担任主持,91直播 团委书记吕媛老师出席了本次活动。

沙龙现场

活动伊始,杨耀东老师巧妙地从近期ChatGРТ中“delve”一词的异常出现及其与钻石挖掘的关联入手,生动形象地引出了人工智能价值对齐这一核心议题。他追溯至控制论的先驱罗伯特·维纳(Robert Wiener)在1960年提出的“维纳之问”,深刻揭示了价值对齐问题在人工智能发展历程中所具有的普遍性与根源性。

随后,杨老师系统阐述了价值对齐的广义与狭义目标。广义层面,他介绍了指导AI系统研发的RICE原则(Reliability, Interpretability, Controllability, Ethics);狭义层面,则聚焦于确保AI行为符合人类期望的3H原则(Helpful, Honest, Harmless)。杨老师提及了人工智能领域著名的“惨痛教训”(the bitter lesson),强调了搜索(search)与学习(learning)以及规模法则(scaling law)在构建强大AI系统中的基础性作用,并明确指出:“如果一个AI不能认识自己的错误,则不能成为一个很好的AI。”他进一步解读了“经验时代”的四大支柱——连续经验流(Streams)、丰富的行动-观测接口、具身/环境信号(Grounded Rewards)以及基于经验的计划与推理,并概述了如OpenAIAnthropic等顶尖研究机构在对齐技术上的战略布局。

在核心技术探讨中,杨老师重点剖析了基于人类反馈的强化学习(RLHF)机制,该机制旨在使AI模型的价值观与人类意图保持一致。他详细拆解了RLHF的三个关键步骤:首先是监督微调,让模型“死记硬背”人类的示范回答;其次是训练奖励模型,使其学习并拟合人类对不同答案的偏好;最后是通过强化学习优化模型策略,以最大化人类标签函数所定义的奖励。同时,杨老师也介绍了如DPODirect Preference Optimization,无需显式奖励函数的偏好策略优化)等RLHF的创新变体。

同学们认真听讲

杨老师深入分析了AI价值对齐面临的诸多挑战,包括“外部不对齐”(如人类未能设定完善的对齐目标或奖励函数存在漏洞)与“内部不对齐”(如模型在训练后出现目标错误泛化,即“目标走偏”)。他特别指出了大模型在对齐过程中可能出现的“奖励篡改”(Reward Hacking)或“两面人”现象,以及语言模型本身可能展现出的抗拒对齐的“弹性”特性。针对这些问题,杨老师介绍了大语言模型安全风险的全周期管理策略,涵盖模型部署前、中、后的红蓝对抗测试(包括人工红队和自动化大模型红队)、带安全约束的价值对齐(Safe RLHF)等前沿方法,并提及了北京大学团队在此方向的积极探索(如PKU-Beaver & PKU-Beavertails项目)以及视觉大模型对齐(如SafeSora项目)面临的新挑战。

展望未来,杨老师探讨了超越当前人类反馈机制的可能性,例如基于残差修正的大模型对齐器(Aligner)如何通过迭代、放大、蒸馏及弱到强泛化等手段实现模型的自我进化。他还强调了对人类复杂价值观进行有效建模与量化的重要性,并引申出集体对齐(Collective Alignment)的挑战,例如如何整合多元民主的输入(Democratic Inputs to AI)、“主权AI”的理念、社会选择理论的应用、处理“价值锁定”(Value Lock-in)问题以及在多元文化背景下实现AI系统的价值兼容等。分享的最后,杨老师将视野从“虚拟”世界的对齐拓展至“现实”应用,讨论了文生视频、具身智能体(如VOA项目)、全模态(any-to-any)模型的对齐难题,并对内生安全与外生安全、全球AI治理动态等宏观议题进行了思考。

在互动交流环节,现场气氛热烈,同学们积极提问。针对同学提出的关于分类模型中可能存在的隐藏价值观偏见问题,杨老师回应道,尽管传统分类任务在处理偏见方面已有较多研究和相对成熟的解决方案,但对于更为复杂的生成式模型而言,其对齐问题不仅更为迫切,也仍处于积极探索阶段。有同学关心在不同文化背景下,大模型如何处理和保护用户隐私。杨老师指出,当前大模型可能只是“记忆”了包含隐私的数据,而非真正“理解”或“学会”了隐私保护,这使得相关治理变得异常复杂和隐蔽,AIGC时代的隐私保护无疑是一个极具价值的研究方向。当被问及若人类偏好本身存在冲突甚至无法统一时,AI应如何对齐,杨老师坦诚地表示,面对涉及深度价值观分歧的议题,目前尚未有完美的解决方案,业界通常会采取一种相对中立或“打太极”的方式来处理,以避免激化矛盾。本期信科“E席谈”青年学术沙龙活动在同学们热烈的掌声中圆满结束!

互动交流

响应学校“科技创新年”整体部署,信科“E席谈”青年学术沙龙在本学期持续开展,从学科质量促进学生培养的角度,邀请信息学科领域优秀青年教师为本科生介绍信息技术学科和产业发展热点和前沿话题,分享青年教师的学术成长发展道路,引导信息学科本科学生一方面开阔学科视野,增进专业认知,寻找未来感兴趣的发展方向,另一方面坚定学科理想和学术追求,规划好学习科研的方向和计划,自觉将个人的学习成长与北大“新工科”建设发展战略、与世界信息科技前沿和产业发展、与国家重大战略需求紧密结合在一起,努力培养专业基础宽厚、创新能力突出、意志坚定、视野开阔的信息领域高层次人才。