曝Bengio新动向:世界模型加数学证明 确保AI系统正常运作
人工智能领域泰斗Yoshua Bengio下一阶段聚焦于AI安全,宣布加入一项名为Safeguarded AI的新项目。

他将以科学总监身份参与这个名为Safeguarded AI(受保护的人工智能)的计划。
该项目旨在通过融合科学世界模型与数学证明,构建一个能够理解并降低其他AI Agent风险的智能系统,核心是提供量化的安全保证。
该计划由英国高级研究与发明局(ARIA)资助,未来ARIA将投入总计5900万英镑(约合5.37亿人民币)。
Bengio强调,在部署新技术时,鉴于AI行为异常或误用可能引发严重后果,必须提供充分理由,最好有强有力的数学保证以确保AI系统正常运作。
“受保护的AI” Safeguarded AI项目划分成三个技术领域,各自拥有明确目标和预算:
支架(Scaffolding):构建可扩展且可互操作的语言与平台,用于维护现实世界模型、规范并检查证明文件。
机器学习(Machine Learning):借助前沿AI帮助领域专家构建复杂现实世界动力学的数学模型,并利用前沿AI训练自主系统。
应用(Applications):在关键的网络‑物理操作环境中部署由“把关AI”保护的自主AI系统,通过量化安全保障释放经济价值。
官方指出,Bengio加入后将特别关注TA3和TA2,为整个计划提供科学战略建议。ARIA还计划投入1800万英镑(约合1.64亿人民币)成立非营利组织,领导TA2的研发工作。
Safeguarded AI项目总监是前Twitter高级软件工程师David “davidad” Dalrymple,他于去年9月加入ARIA。针对Bengio的加入,Dalrymple在X(原推特)上分享了两人的合照。
关于“构建负责理解和降低其他AI Agent风险的AI系统”的具体方法,David “davidad” Dalrymple、Yoshua Bengio等人撰写了一份文件,提出了一套名为“Guaranteed Safe AI(保证安全的AI)”的模式。该模式通过三个核心要素的相互作用来量化AI系统的安全保障:
世界模型:提供数学描述,阐述AI系统如何影响外部世界,并妥善处理贝叶斯和奈特不确定性。
安全规范:定义哪些效果是可接受的数学描述。
验证器:提供证明AI符合安全规范的可审计证书。
他们还为创建世界模型的策略划分了L0‑L5安全等级:
Level 0:没有明确的世界模型。关于世界的假设隐含在AI系统的训练数据和实现细节中。
Level 1:使用经过训练的黑盒世界模拟器作为世界模型。
Level 2:使用机器学习生成的概率因果模型的生成模型,可通过检查它是否为特定人类制作的模型(如科学文献中的模型)分配足够可信度来进行测试。
Level 3:使用(一个或多个)概率因果模型(或它们的分布),可能在机器学习帮助下生成,且经过人类领域专家全面审核。
Level 4:使用关于真实世界现象的世界模型,这些模型被正式验证为基本物理定律的合理抽象。
Level 5:不依赖具体世界模型,而是使用覆盖所有可能世界的全局性安全规范。
“AI风险”一直是行业顶尖人物关注的焦点。Hinton离开谷歌就是为了更自由地探讨AI风险问题。此前吴恩达、Hinton、LeCun、哈萨比斯等AI领域巨擘曾在线上展开激烈讨论。吴恩达曾表示,对AI最大的担忧是风险被过度鼓吹,导致开源和创新被严苛规定压制,有些人传播恐惧只是为了获取利益。而DeepMind CEO哈萨比斯则认为这并非恐吓,AGI的风险如果不从现在开始讨论,后果可能严重,不应等到危险爆发才做防范。
Bengio此前还与Hinton、姚期智、张亚勤等人共同发表公开信《在快速进步的时代管理人工智能风险(Managing AI RIsks in an Era of Rapid Progress)》,指出人类必须认真对待AGI在这10年或下个10年内超越人类能力的可能,建议监管机构全面洞察AI发展,尤其警惕那些在价值数十亿美元的超级计算机上训练的大模型。一个月前,Bengio还撰写了题为“Reasoning through arguments against taking AI safety seriously”的文章,分享了他的最新见解。
链接:
Guaranteed Safe AI:https://arxiv.org/abs/2405.06624
参考链接:
[1]https://www.technologyreview.com/2024/08/07/1095879/ai-godfather-yoshua-bengio-joins-uk-project-to-prevent-ai-catastrophes/
[2]https://www.reddit.com/r/singularity/comments/1emcwox/ai_godfather_yoshua_bengio_has_joined_a_uk/
[3]https://x.com/davidad/status/1821155265456033803