GPT-4o最自私:Claude更慷慨:DeepMind发布全新AI道德测试

时间:2026-06-30 10:24:41 来源:互联网

每个AI智能体在游戏开启时,会依据策略提示来决定是否捐赠。表现最佳的50%智能体,凭借最终资源量,才能晋级至下一代。

img_6a4328e8eec8530.webp

从人类社会视角审视,这些存活下来的智能体可被视为社区内的“智慧长者”。新生成的智能体能够从这些长者身上学习策略。因此,在为新一代智能体创建策略时,系统会将前一代存活智能体的相关策略纳入提示中。捐赠提示包含轮数、代数、接收者身份、接收者声誉状况、接收者资源量、捐赠者资源量及捐赠者策略。随后,新智能体与存活智能体再次进行捐赠游戏,此过程总共循环10代。

img_6a4328e9058b031.webp

原则上,捐赠者能够利用其他智能体留下的痕迹来评估其声誉。这些痕迹包括接收者在以往作为捐赠者时放弃了多少资源,以及这些资源给予了谁;还包括之前的合作伙伴在前一次互动中让渡了多少资源。由于智能体的上下文处理长度存在限制,无法调取全部信息,因此研究人员将回溯范围限定为最多三轮。

img_6a4328e90fe7032.webp

智能体的策略需符合以下进化条件:

1. 变异——策略可通过调整温度参数进行调控;

2. 传递——新智能体能够获知已存活智能体的策略,从而进行学习;

3. 选择——表现最优的50%智能体才能存活至下一代,并将其策略传递给新智能体。

人类捐赠者实验显示,引入惩罚机制能有效促进合作行为。基于此,研究人员额外设计了一项“惩罚提示”:捐赠者能够选择耗费一定数量资源,用以剥夺接收者双倍的资源。

在设计游戏配对机制时,每个智能体都不会与自己先前互动过的对象再次相遇,从而排除了互惠可能性。同时,智能体并不知道游戏总共进行多少轮,这也就避免了它们在最后一轮突然大幅调整行为。

实验结果

研究人员选用Claude 3.5 Sonnet、Gemini 1.5 Flash和GPT-4o三种模型,来探索智能体在间接互惠中的文化演变过程。在每次运行中,所有智能体均源自同一个模型。

img_6a4328e91a79b33.webp

观察结果可知,三个模型在最终资源平均值上存在显著差异。其中,只有Claude 3.5 Sonnet在经历不同代际的智能体后,表现出了进步迹象。

img_6a4328e924c5d34.webp

然而,在逐次检查每次独立运行的结果时,可以识别出更为细微的效果。Claude 3.5的优势并非稳定不变,它在某种程度上依赖于对第一代智能体采样策略初始条件的敏感性。

假设存在一个初始合作的临界阈值。如果LLM智能体群体的合作水平低于此阈值,那么这些智能体注定会陷入相互背叛的循环。

实际上,在Claude未能成功促成合作的两次运行中(以玫瑰色与绿色折线表示),第一代的平均捐赠率分别为44%和47%。而在Claude成功引发合作的三次运行中,第一代的平均捐赠率分别达到50%、53%和54%。

与GPT-4o和Gemini 1.5 Flash相比,究竟是什么因素使得Claude 3.5能够促成更多跨代际的合作行为?

img_6a4328e92fcbe35.webp

研究人员审视了每种模型在表现最佳运行轮次中的捐赠金额文化演变情况。一个推测是,Claude 3.5在初期阶段的捐赠行为更为慷慨,这种慷慨在捐赠游戏的每一轮中都产生了正向反馈。实验结果印证了这一观点。

另一个假设是,Claude 3.5的策略拥有更强的能力去惩罚那些搭便车的智能体。这使得合作意愿更高的智能体更有可能存活到下一代。实验也证实了这一效果,但结果显示其影响力相对较弱。

第三个假设是,当新一代个体在代际间引入时,策略变异在Claude场景下倾向于慷慨,而在GPT-4o场景下则倾向于吝啬。实验结果与这一假设相吻合:Claude 3.5 Sonnet的新智能体通常比前一代幸存者更为慷慨,而GPT-4o的新智能体则往往不如前一代幸存者慷慨。

不过,要严格证伪“合作变异偏见”的存在,仍需要在固定背景群体存在的条件下对比新智能体的策略,这也构成了未来的一个潜在研究方向。

img_6a4328e93a03a36.webp

综合观察,Claude 3.5 Sonnet智能体的策略随时间演进最为复杂,初始捐赠额度也显著增加;相比之下,Gemini 1.5 Flash的变化幅度最小,且未直接指定捐赠数值。这揭示了不同模型在文化演化中的差异。