UCL博士生创业一年:造出最强AI ML工程师:OpenAI盖戳认证

时间：2026-07-02 09:07:41 来源：互联网

仅依赖大语言模型不足以实现智能突破，Agent框架的构建与优化同样占据关键地位。OpenAI推出的MLE-bench基准测试，深刻揭示了框架与模型协同带来的性能飞跃。

一、被忽略的「Agent 框架」

OpenAI近期展露了更为宏大的雄心。

依托大型语言模型（LLM）所具备的丰富先验知识与行动/反应能力，实现AI对AI的训练是否可行？

多个顶级大模型在机器学习自动化工程任务中的表现究竟如何？

人类距离OpenAI AGI路线图上的Level 3（Agents）还有多远？

怀着这些疑问，OpenAI自主发布了一项新基准测试——MLE-bench，精心筛选了75个与机器学习工程（MLE）相关的Kaggle竞赛题目。当前，能够全面衡量自主端到端机器学习工程的基准测试依然稀少。

测试结果显示，GPT-4o在配合AIDE框架时，平均获得的奖牌数量明显超过了另外两个开源Agent框架。

更令人瞩目的是，当模型替换为据称突破了LLM推理极限的o1-preview后，其表现实现了翻倍：

在约16.9%的竞赛中达到了相当于Kaggle铜牌及以上的水平，奖牌总数也遥遥领先。

经过8次尝试后，o1-preview的得分从单次尝试的16.9%提升至34.1%。

耐人寻味的是，论文本意在于展示自家模型（如o1-preview）的卓越性能，却意外使得名为AIDE的开源Agent框架脱颖而出，引发了广泛关注。

Meta FAIR研究科学家主任田渊栋随即对此表示祝贺。

伦敦大学学院（UCL）教授、谷歌DeepMind高级研究员及开放环境学习团队负责人Tim Rocktäschel在社交媒体上指出，这是展示开放式自我完善外部循环（AIDE）如何引导强大内部循环（o1）实现惊人能力飞跃的绝佳实例。他同时也是谷歌Genie（基础世界模型）项目的领导者。

UCL名誉教授、谷歌DeepMind研究主任Edward Grefenstette认为，AIDE团队构建的成果在很大程度上支撑并影响了OpenAI的智能体路线图。

DeepMind研究员、UCL教授Sebastian Riedel欣喜地表示，大家亲眼见证了Agent框架在基础模型之上带来的巨大影响。

MLE-bench公布后，AIDE作者之一蒋铮尧接受了采访。

他谈到，构建内循环前沿模型（如o1-preview）已经投入了大量精力与资金，而一个优质的自改进外循环（Agent框架，如AIDE）能为前沿模型的能力带来巨大提升。

二、认识AIDE，当前最佳的MLE Agent

评估大模型性能之前，选择合适的Agent框架至关重要。

OpenAI发现，尽管有效提交数量相近，但GPT-4o结合AIDE框架在8.7%的竞赛中至少获得铜牌，明显超过另两个开源框架MLAB（0.8%）和OpenHands（4.4%）。

蒋铮尧对这一结果并不意外，因为这些框架的设计初衷各不相同。

MLAB基于通用的ReAct框架，专为机器学习任务设计。其设计理念侧重于接口设计，通过调用工具执行操作，类似于为ChatGPT配备更多工具，相信大模型自身知道如何操作。然而，对当前世代的模型来说，这极具挑战，一旦实现便几乎等同于达到AGI。

OpenHands（前身为OpenDevin）更为通用，是一个AI驱动的软件开发Agent，能根据用户自然语言命令自动驾驶软件开发任务，涵盖克隆项目、修改代码、运行命令、调用API和提交代码等，也包括数据科学任务。

相比之下，AIDE没有如此通用。

AIDE是一个专注于代码优化的框架，随后进行了机器学习方面的特化，从而比通用框架表现更佳。

作为一个机器学习代码生成Agent，用户用自然语言描述问题后，它会在本地计算机上反复试错，提供解决方案。

真正出乎蒋铮尧意料的是，o1-preview与AIDE的适配性极佳，当模型切换至o1-preview后，表现翻倍，在大约16.9%的比赛中达到了Kaggle铜牌以上的水平。

蒋铮尧推测，这可能与AIDE的AI Function设计范式有关。该范式将大问题拆分为具体指令（函数），再用算法串联。在这种范式下，每次喂给大模型的问题与强化学习训练中的数理化题目更为相似，创造了一个与训练过程更一致的问题解决环境。

负责串联具体指令的核心算法是解空间树搜索，包含三个主要组件。

解决方案生成器负责提出新解决方案，主要创建起点。大模型接收自然语言指令和背景资料后，生成多个初始解决方案，并可对现有方案进行修改，如修复bug或引入改进。每个方案包含机器学习模型的实现与评估方法。

OpenAI论文提供了相关快照。

MLE-bench中，三种不同Agent框架的真实轨迹摘录

在执行某个MLE-bench任务时，AIDE设计了一个基于预训练EfficientNet-B0模型的二元分类器，作为搜索的初始方案。

评估器测试每个方案，比较性能与目标，输出评估结果。蒋铮尧表示，对于单步任务，大语言模型有能力写出合格的评估代码。

基础解决方案选择器从已探索选项中挑选最有前途的方案，作为下一轮优化的起点。这是一个固定的逻辑模块，大模型只需客观判断数值优劣，对引导搜索过程至关重要。

回到上述MLE-bench任务。AIDE在步骤2提出了改进方案，引入测试时增强来提高模型性能。步骤17中，它用Focal Loss替换了二元交叉熵损失函数。从步骤2到17，中间包含多个优化步骤，每一步都建立在前一步的评估基础上。

AIDE会要求大模型基于最佳方案继续改进，后者可能生成多种改进方向，周而复始。

通过持续生成新方案，AIDE逐步探索并优化解决方案空间，最终收敛到高度优化的解。

纵观MLE-bench任务全程，通用框架如同急于交卷的学生，过早结束运行。例如OpenHands仅运行2分钟（19步）便终止。而AIDE会反复提示模型提高得分，持续战斗到24小时结束，共生成和评估30个不同方案或变体。

虽然在OpenAI MLE-bench中，AIDE在16.9%的Kaggle任务上获得奖牌，但根据4月的技术报告，AIDE表现更优：在Kaggle数据科学比赛中的平均表现击败了一半的人类参赛者。

来自4月的技术报告，AIDE平均表现超过50%的Kaggle数据科学比赛的人类参与者，也优于传统的AutoML、Langchain Agent和ChatGPT。

蒋铮尧解释了性能差异：OpenAI更关注深度学习任务，而团队选择的Kaggle比赛多为表格数据任务，如预测房价、信用卡欺诈等，深度学习任务较少，GPU成本高昂是重要原因。在这些常见机器学习任务中，两美元即可获得不错的解决方案。使用gpt-4-turbo时，推理成本不到1美元，因为AIDE每次只提供最相关的信息，而非全部历史数据，极大节约了成本。

然而，MLE-bench也揭示了明显局限。三个Agent均未能充分考虑机器性能和时间限制，常发出超出机器承受能力的命令，导致硬盘或内存耗尽，程序被强制关闭。此外，它们很少表明生成代码的运行时长。

蒋铮尧认为，这些大模型尚未真正达到Agent程度，在处理需要长期规划和多步骤交互的复杂任务时仍存在明显不足。AIDE代表了新尝试，结合代码逻辑与神经网络，专为特定任务优化，更适合边界明确的问题。相比传统纯逻辑软件，AIDE能处理更广泛的问题，但面对更开放的问题，逻辑部分会日益复杂，直至无法处理。

三、从UCL出发的研究之路

作为AIDE主要作者，蒋铮尧、吴宇翔和Dominik Schmidt均来自伦敦大学学院（UCL）。

蒋铮尧目前仍在UCL DARK实验室攻读博士学位，该实验室隶属于伦敦大学学院人工智能中心，专注于复杂开放环境下的强化学习研究。在2024年国际机器学习会议（ICML）上，DARK摘得了两项最佳论文奖。蒋铮尧的两位导师Tim Rocktäschel和Edward Grefenstette同时也在谷歌DeepMind从事研究。

吴宇翔在UCL人工智能中心NLP组攻读博士学位，之前聚焦问答领域。创始工程师团队同样实力雄厚，Dominik Schmidt来自UCL DARK实验室，拥有硕士学位。Dhruv Srikanth在卡耐基梅隆大学获得计算机科学硕士学位。

研究团队成立于2023年5月。此前，吴宇翔和蒋铮尧开发了多智能体LLM框架ChatArena，引起广泛关注。创业后，团队意识到多智能体框架商业化尚早，面临诸多挑战。他们重新思考方向，最终确定了用AI智能体来制造AI的目标。

机器学习的进步主要源于有效实验：针对特定任务开发方法、运行实验、评估结果、根据反馈改进方法。这个迭代过程充满挑战，研究人员需具备广泛先验知识、编写实用代码并准确解读实验结果。作为工程师，他们自然有自动化工作流程的冲动，特别看重实验过程自动化的潜力。强大语言模型驱动的Agent能否有效执行复杂机器学习实验？

考虑到成本，团队聚焦算力消耗较低的机器学习任务，尤其是表格模型和小规模神经网络，并于2024年4月推出AIDE，在Kaggle数据科学比赛中平均表现战胜了50%的人类参赛者。AIDE是研究方向的核心工作。蒋铮尧解释，尽管o1-preview带来进展，但技术尚未完全成熟，商业化仍面临挑战。

未来，AIDE将持续改进。团队计划加强与社区的合作，包括提升性能和关注AI安全，并准备与对AI安全有担忧的机构和专家展开合作。

这种具备递归自我提升能力的AI同样非常危险。

前不久，微软AI CEO公开表示，虽然当前尚未看到AI系统自我提升到导致智能爆炸的程度，但未来5到10年情况将会改变。各大AI公司和政府AI安全部门都在密切关注这一领域，构建公共benchmark有助于理解人类距离递归自我提升的距离，并及时协调应对。

除了科研线AIDE，团队还有产品线。他们即将发布首个公开测试产品AI Function Builder，能根据自然语言任务描述生成AI功能并提供API接口，用户只需通过一行代码或电子表格公式即可调用。

就在OpenAI公布MLE-bench前几天，2024年诺贝尔化学奖被一分为二：一半授予谷歌DeepMind CEO和高级研究科学家，表彰其蛋白质结构预测方面的贡献。这一殊荣源自AlphaFold，标志着诺贝尔奖对AI驱动科学发现新范式的高度肯定。许多学术界人士将重新编写研究经费申请，反思研究方向。

蒋铮尧认为，未来将涌现更多低垂果实，AI在推动科学研究方面的作用可能愈发显著。从工程师角度看，人们可能将更多时间投入创造性思维、跨领域整合和深度逻辑推理，而将重复性试错过程交由AI完成。

最核心的愿景在于培养AI科学家，使智能体能够自主形成或融入科学共同体，推动更多研究领域的突破。

上一篇：本科经典算法Dijkstra 被证明是普遍最优了:最坏情况性能也最优！下一篇：Midjourney又推AI修图神器！能消除还能无中生有扩图