CCF学生领航计划
CCF Student Pilot Program(SPP)
CCF第73期
《Value Compass:从AI安全到基本价值观对齐》
2023年12月27日 19:30-21:00
报告主题:《Value Compass:从AI安全到基本价值观对齐》
报告简介:
AI能力的增长及其与人类生活日趋加深的融合对社会带来了潜在的风险(AI Safety Risks)。为促进AI的安全与可持续发展,有必要对模型生成的有害内容、例如毒性、偏见、错误信息等进行管控。然而,大语言模型呈现出反尺度现象(Inverse Scaling)和风险涌现(Emergent Risk)等性质,使得传统的针对特定安全风险的评估与解决手段难以应付未来可能愈加严重和广泛的问题。价值观对齐(Value Alignment)成为从根本上解决AI风险较有潜力的手段。本次报告中,我们将首先梳理大模型面临的风险,回顾小模型时代的解决方法,阐述它们在大模型时代面临的独特问题。随后将聚焦大模型的核心技术之一, 人机对齐(AI Alignment),从对齐目标(What to align)和对齐方法(how to align)两个角度进行介绍,总结大模型在价值观对齐上面临的挑战。为了解决这些挑战,我们提出的价值观司南(Value Compass)项目,从交叉学科的角度切入,充分借鉴道德学和社会科学中的理论,以解决对价值观的定义、评测和对齐问题。
演讲嘉宾:矣晓沅,微软亚洲研究院高级研究员
矣晓沅,微软亚洲研究院高级研究员,于清华大学计算机系获工学学士、博士学位,主要从事自然语言生成(NLG)与社会责任人工智能(Societal AI)的研究。致力于AI与多学科的结合,构建符合人类价值观的AI并提升社会公平。主导开发的中文古典诗歌自动创作系统“九歌”作为最著名的AI作诗系统之一,曾登上《机智过人》、《朗读者》等央视节目展示,并得到上百个国家地区用户的数千万次使用。曾获清华大学特等奖学金、海淀区十大杰出青年、央视机智先锋个人称号、新华网十大年度网络人物、西贝尔学者称号、北京市优秀毕业生、全国计算语言学大会最佳论文奖和最佳系统展示奖、IJCAI-SAIA学术新星、CCF优博等荣誉。