UCL博士生创业一年:造出最强AI ML工程师:OpenAI盖戳认证

时间:2026-07-02 09:07:41 来源:互联网

仅依赖大语言模型不足以实现智能突破,Agent框架的构建与优化同样占据关键地位。OpenAI推出的MLE-bench基准测试,深刻揭示了框架与模型协同带来的性能飞跃。

一、被忽略的「Agent 框架」

OpenAI近期展露了更为宏大的雄心。

依托大型语言模型(LLM)所具备的丰富先验知识与行动/反应能力,实现AI对AI的训练是否可行?

多个顶级大模型在机器学习自动化工程任务中的表现究竟如何?

人类距离OpenAI AGI路线图上的Level 3(Agents)还有多远?

怀着这些疑问,OpenAI自主发布了一项新基准测试——MLE-bench,精心筛选了75个与机器学习工程(MLE)相关的Kaggle竞赛题目。当前,能够全面衡量自主端到端机器学习工程的基准测试依然稀少。

测试结果显示,GPT-4o在配合AIDE框架时,平均获得的奖牌数量明显超过了另外两个开源Agent框架。

更令人瞩目的是,当模型替换为据称突破了LLM推理极限的o1-preview后,其表现实现了翻倍:

在约16.9%的竞赛中达到了相当于Kaggle铜牌及以上的水平,奖牌总数也遥遥领先。

经过8次尝试后,o1-preview的得分从单次尝试的16.9%提升至34.1%。

img_6a45b9dcef30230.webp

耐人寻味的是,论文本意在于展示自家模型(如o1-preview)的卓越性能,却意外使得名为AIDE的开源Agent框架脱颖而出,引发了广泛关注。

Meta FAIR研究科学家主任田渊栋随即对此表示祝贺。

img_6a45b9dd0b68731.webp

伦敦大学学院(UCL)教授、谷歌DeepMind高级研究员及开放环境学习团队负责人Tim Rocktäschel在社交媒体上指出,这是展示开放式自我完善外部循环(AIDE)如何引导强大内部循环(o1)实现惊人能力飞跃的绝佳实例。他同时也是谷歌Genie(基础世界模型)项目的领导者。

img_6a45b9dd1aec232.webp

UCL名誉教授、谷歌DeepMind研究主任Edward Grefenstette认为,AIDE团队构建的成果在很大程度上支撑并影响了OpenAI的智能体路线图。

img_6a45b9dd27dfb33.webp

DeepMind研究员、UCL教授Sebastian Riedel欣喜地表示,大家亲眼见证了Agent框架在基础模型之上带来的巨大影响。

img_6a45b9dd3d20c34.webp

MLE-bench公布后,AIDE作者之一蒋铮尧接受了采访。

他谈到,构建内循环前沿模型(如o1-preview)已经投入了大量精力与资金,而一个优质的自改进外循环(Agent框架,如AIDE)能为前沿模型的能力带来巨大提升。

二、认识AIDE,当前最佳的MLE Agent

评估大模型性能之前,选择合适的Agent框架至关重要。

OpenAI发现,尽管有效提交数量相近,但GPT-4o结合AIDE框架在8.7%的竞赛中至少获得铜牌,明显超过另两个开源框架MLAB(0.8%)和OpenHands(4.4%)。

蒋铮尧对这一结果并不意外,因为这些框架的设计初衷各不相同。

MLAB基于通用的ReAct框架,专为机器学习任务设计。其设计理念侧重于接口设计,通过调用工具执行操作,类似于为ChatGPT配备更多工具,相信大模型自身知道如何操作。然而,对当前世代的模型来说,这极具挑战,一旦实现便几乎等同于达到AGI。

OpenHands(前身为OpenDevin)更为通用,是一个AI驱动的软件开发Agent,能根据用户自然语言命令自动驾驶软件开发任务,涵盖克隆项目、修改代码、运行命令、调用API和提交代码等,也包括数据科学任务。

相比之下,AIDE没有如此通用。

AIDE是一个专注于代码优化的框架,随后进行了机器学习方面的特化,从而比通用框架表现更佳。

作为一个机器学习代码生成Agent,用户用自然语言描述问题后,它会在本地计算机上反复试错,提供解决方案。

真正出乎蒋铮尧意料的是,o1-preview与AIDE的适配性极佳,当模型切换至o1-preview后,表现翻倍,在大约16.9%的比赛中达到了Kaggle铜牌以上的水平。

img_6a45b9dd4cefc35.webp

蒋铮尧推测,这可能与AIDE的AI Function设计范式有关。该范式将大问题拆分为具体指令(函数),再用算法串联。在这种范式下,每次喂给大模型的问题与强化学习训练中的数理化题目更为相似,创造了一个与训练过程更一致的问题解决环境。

负责串联具体指令的核心算法是解空间树搜索,包含三个主要组件。

解决方案生成器负责提出新解决方案,主要创建起点。大模型接收自然语言指令和背景资料后,生成多个初始解决方案,并可对现有方案进行修改,如修复bug或引入改进。每个方案包含机器学习模型的实现与评估方法。

OpenAI论文提供了相关快照。

img_6a45b9dd59bfc36.webp

MLE-bench中,三种不同Agent框架的真实轨迹摘录

在执行某个MLE-bench任务时,AIDE设计了一个基于预训练EfficientNet-B0模型的二元分类器,作为搜索的初始方案。

评估器测试每个方案,比较性能与目标,输出评估结果。蒋铮尧表示,对于单步任务,大语言模型有能力写出合格的评估代码。

基础解决方案选择器从已探索选项中挑选最有前途的方案,作为下一轮优化的起点。这是一个固定的逻辑模块,大模型只需客观判断数值优劣,对引导搜索过程至关重要。

回到上述MLE-bench任务。AIDE在步骤2提出了改进方案,引入测试时增强来提高模型性能。步骤17中,它用Focal Loss替换了二元交叉熵损失函数。从步骤2到17,中间包含多个优化步骤,每一步都建立在前一步的评估基础上。

AIDE会要求大模型基于最佳方案继续改进,后者可能生成多种改进方向,周而复始。

通过持续生成新方案,AIDE逐步探索并优化解决方案空间,最终收敛到高度优化的解。

纵观MLE-bench任务全程,通用框架如同急于交卷的学生,过早结束运行。例如OpenHands仅运行2分钟(19步)便终止。而AIDE会反复提示模型提高得分,持续战斗到24小时结束,共生成和评估30个不同方案或变体。

虽然在OpenAI MLE-bench中,AIDE在16.9%的Kaggle任务上获得奖牌,但根据4月的技术报告,AIDE表现更优:在Kaggle数据科学比赛中的平均表现击败了一半的人类参赛者。

img_6a45b9dd714ed37.webp

来自4月的技术报告,AIDE平均表现超过50%的Kaggle数据科学比赛的人类参与者,也优于传统的AutoML、Langchain Agent和ChatGPT。

蒋铮尧解释了性能差异:OpenAI更关注深度学习任务,而团队选择的Kaggle比赛多为表格数据任务,如预测房价、信用卡欺诈等,深度学习任务较少,GPU成本高昂是重要原因。在这些常见机器学习任务中,两美元即可获得不错的解决方案。使用gpt-4-turbo时,推理成本不到1美元,因为AIDE每次只提供最相关的信息,而非全部历史数据,极大节约了成本。

然而,MLE-bench也揭示了明显局限。三个Agent均未能充分考虑机器性能和时间限制,常发出超出机器承受能力的命令,导致硬盘或内存耗尽,程序被强制关闭。此外,它们很少表明生成代码的运行时长。

蒋铮尧认为,这些大模型尚未真正达到Agent程度,在处理需要长期规划和多步骤交互的复杂任务时仍存在明显不足。AIDE代表了新尝试,结合代码逻辑与神经网络,专为特定任务优化,更适合边界明确的问题。相比传统纯逻辑软件,AIDE能处理更广泛的问题,但面对更开放的问题,逻辑部分会日益复杂,直至无法处理。

三、从UCL出发的研究之路

作为AIDE主要作者,蒋铮尧、吴宇翔和Dominik Schmidt均来自伦敦大学学院(UCL)。

img_6a45b9dd7c3a638.webp

蒋铮尧目前仍在UCL DARK实验室攻读博士学位,该实验室隶属于伦敦大学学院人工智能中心,专注于复杂开放环境下的强化学习研究。在2024年国际机器学习会议(ICML)上,DARK摘得了两项最佳论文奖。蒋铮尧的两位导师Tim Rocktäschel和Edward Grefenstette同时也在谷歌DeepMind从事研究。

吴宇翔在UCL人工智能中心NLP组攻读博士学位,之前聚焦问答领域。创始工程师团队同样实力雄厚,Dominik Schmidt来自UCL DARK实验室,拥有硕士学位。Dhruv Srikanth在卡耐基梅隆大学获得计算机科学硕士学位。

研究团队成立于2023年5月。此前,吴宇翔和蒋铮尧开发了多智能体LLM框架ChatArena,引起广泛关注。创业后,团队意识到多智能体框架商业化尚早,面临诸多挑战。他们重新思考方向,最终确定了用AI智能体来制造AI的目标。

机器学习的进步主要源于有效实验:针对特定任务开发方法、运行实验、评估结果、根据反馈改进方法。这个迭代过程充满挑战,研究人员需具备广泛先验知识、编写实用代码并准确解读实验结果。作为工程师,他们自然有自动化工作流程的冲动,特别看重实验过程自动化的潜力。强大语言模型驱动的Agent能否有效执行复杂机器学习实验?

考虑到成本,团队聚焦算力消耗较低的机器学习任务,尤其是表格模型和小规模神经网络,并于2024年4月推出AIDE,在Kaggle数据科学比赛中平均表现战胜了50%的人类参赛者。AIDE是研究方向的核心工作。蒋铮尧解释,尽管o1-preview带来进展,但技术尚未完全成熟,商业化仍面临挑战。

未来,AIDE将持续改进。团队计划加强与社区的合作,包括提升性能和关注AI安全,并准备与对AI安全有担忧的机构和专家展开合作。

这种具备递归自我提升能力的AI同样非常危险。

前不久,微软AI CEO公开表示,虽然当前尚未看到AI系统自我提升到导致智能爆炸的程度,但未来5到10年情况将会改变。各大AI公司和政府AI安全部门都在密切关注这一领域,构建公共benchmark有助于理解人类距离递归自我提升的距离,并及时协调应对。

除了科研线AIDE,团队还有产品线。他们即将发布首个公开测试产品AI Function Builder,能根据自然语言任务描述生成AI功能并提供API接口,用户只需通过一行代码或电子表格公式即可调用。

就在OpenAI公布MLE-bench前几天,2024年诺贝尔化学奖被一分为二:一半授予谷歌DeepMind CEO和高级研究科学家,表彰其蛋白质结构预测方面的贡献。这一殊荣源自AlphaFold,标志着诺贝尔奖对AI驱动科学发现新范式的高度肯定。许多学术界人士将重新编写研究经费申请,反思研究方向。

蒋铮尧认为,未来将涌现更多低垂果实,AI在推动科学研究方面的作用可能愈发显著。从工程师角度看,人们可能将更多时间投入创造性思维、跨领域整合和深度逻辑推理,而将重复性试错过程交由AI完成。

最核心的愿景在于培养AI科学家,使智能体能够自主形成或融入科学共同体,推动更多研究领域的突破。