Claude 3.5深夜觉醒：学会模仿人类用电脑：编程干翻o1：Agent一夜变天

时间：2026-07-02 09:03:43 来源：互联网

Claude独立启动搜索引擎，开始自主检索信息。随后，它进一步探索其他功能。

金门大桥与用户住址之间的距离，由Claude自行开启地图服务进行查询。

获取必要信息后，它开启日历功能，为用户规划了日程安排。

自动编码写网站

开发者展示了Claude操控笔记本电脑完成网站编程任务的流畅过程。

首先，Claude在浏览器中导航到自身平台，并指令另一实例创建以90年代风格为主题的个人主页。

它自主输入网址，键入提示，向另一个Claude发起请求。

平台返回的代码生成效果不错，但开发者希望在本机环境中进一步修改网站。

于是，他指令Claude下载文件，并在VS Code中打开。Claude顺利执行了这些操作。

接着，开发者要求Claude启动服务器，以便在浏览器中预览文件。

Claude开启VS Code终端尝试启动服务器，却遭遇错误：系统未安装Python。

结果，通过查看终端输出，Claude自主发现了问题！它改用Python 3再次尝试，成功运行了服务器。

不过，终端输出中存在一个错误，且页面顶部缺少文件图标。开发者请Claude识别并修复该错误。

令人惊喜的是，Claude在VS Code中找到引发错误的行，将其删除，随后保存文件并重新运行网站。

这次，网站完全正确！

自动寻找数据填表

假设需填写一份来自某设备公司的供应商请求表，但数据散布在电脑各处，Claude能否协助完成？

它开始截取屏幕截图，并迅速发现：该公司并未出现在表格中。

此时，它立即切换至CRM系统搜索该公司。找到后，滚动页面查找填表所需信息，最终提交了表格。

这意味着，工作中许多繁琐事项均可交由Claude代劳！

该功能现已通过API提供。

目前，多家知名企业正在探索Claude的新潜能，使其执行数十步甚至数百步的复杂任务。

某编程平台正利用Claude 3.5 Sonnet的计算机使用和界面导航能力，为自身Agent开发功能，在构建应用程序过程中进行实时评估。

远低于人类，但未来可期

新升级后的Claude 3.5 Sonnet，电脑使用能力究竟如何？

在OSWorld测试中，它在仅基于屏幕截图的任务类别中得分为14.9%，明显超越排名第二的AI系统（7.8%）。

当允许更多操作步骤时，Claude得分提高至22.0%。

这表明模型与环境的多次交互能优化任务性能。

虽然结果有大幅提升，但仍远低于人类72.36%的表现。

这也暗示了Claude 3.5 Sonnet未来还有很大改进空间。

毕竟，人类毫不费力完成的滚动、拖动、缩放等操作，目前对Claude极具挑战。

升级版Claude 3.5 Sonnet，编码王者干翻o1

在各项行业基准测试中，升级版Claude 3.5 Sonnet性能全面提升。

特别是在智能体编码、工具使用任务中取得显著突破。

在编码能力方面，它在SWE-bench Verified测试中性能从33.4%大幅提升至49.0%。

这超越了所有公开可用的模型，包括推理模型和专为智能体编码设计的系统。

此外，在TAU-bench评估智能体工具使用能力的基准测试中，Claude 3.5 Sonnet也表现出色：

从下表中，可看出推理测试基准GPQA（Diamond）上，新版Claude 3.5 Sonnet大幅超越GPT-4o。

在视觉QA、数学推理、文档视觉问答、图表问答、科学表格基准测试中，Claude 3.5 Sonnet性能成为业界新标杆。

值得一提的是，新版Claude 3.5 Sonnet在性能突破的同时，仍保持了与前代模型相同的价格和运行速度。

一些早期测试用户的反馈，进一步印证了升级后Claude 3.5 Sonnet在AI驱动编码领域实现质的飞跃。

某DevSecOps公司：在DevSecOps任务测试中发现，Claude 3.5 Sonnet在不增加延迟的前提下，推理能力显著提升（各用例最高提升10%），使其成为驱动复杂软件开发流程的理想选择

某AI公司：将新版Claude 3.5 Sonnet应用于自主AI评估，在编码、规划和问题解决等方面，相较前代模型均取得实质性进步

某浏览器公司：在使用该模型自动化网络工作流程时发现，Claude 3.5 Sonnet的表现超越了他们此前测试过的所有模型

此外，在安全部署前，Claude 3.5 Sonnet已经在美国AI安全研究所（US AISI）和英国安全研究所（UK AISI）进行了联合测试。

而且，经过自身评估，该AI团队在责任扩展政策中制定的ASL-2标准仍然适用于新模型。

如前所述，升级版Claude 3.5 Sonnet现已可在网页、终端APP上使用。

API的定价起始为每百万输入Token 3美元，每百万输出Token 15美元。

通过使用智能缓存技术可节省高达90%的成本，而使用批处理API则可节省50%成本。

应用场景

Claude 3.5 Sonnet能够理解细微指令和上下文，识别并纠正自身错误，还能从复杂数据中生成深入分析和洞察。结合最先进的编码、视觉识别和写作能力，Claude 3.5 Sonnet可应用于各种场景。

模拟人类操作电脑

通过API集成，开发者可指导Claude像人类一样使用电脑——观察屏幕、移动鼠标、点击按钮和键入文字。Claude 3.5 Sonnet是首个能以此方式可靠使用电脑的前沿AI模型，目前公开测试阶段仍具实验性质，但能力会随时间持续提升。

代码自动生成

Claude 3.5 Sonnet可协助整个软件开发生命周期——从初始设计到错误修复，从系统维护到性能优化。可将其直接集成到产品中，或通过平台用作智能编码助手。

智能对话系统

凭借增强推理能力和亲和、自然的语气，Claude 3.5 Sonnet非常适合开发需要跨系统连接数据并执行操作的智能对话系统。

智能知识问答

Claude 3.5 Sonnet具有大规模上下文处理能力和极低的幻觉率，使其成为处理大型知识库、文档和代码库问答任务的理想选择。

视觉信息提取

Claude 3.5 Sonnet能轻松从图表、图形和复杂示意图等视觉材料中提取信息——这使其成为数据分析和数据科学任务的理想AI模型。

流程自动化

Claude 3.5 Sonnet能实现重复性任务或流程的自动化。它具备业界领先的指令执行能力，能处理复杂流程和操作。

全新Claude 3.5 Haiku，智能超越上代老大哥

从上一代对标来看，Claude 3.5 Haiku称得上最小杯。

这是该AI团队速度最快的模型。

它不仅保持了与Claude 3 Haiku相同的运行成本和相近的处理速度，还在各项技能上全面提升。

甚至，在多项智能基准测试中，Claude 3.5 Haiku超越了上一代最强大的模型Claude 3 Opus。

同样，Claude 3.5 Haiku在编码任务上的表现尤为卓越。

比如，在SWE-bench Verified测试中，它取得40.6%的高分，超越了许多使用公开可用的最先进模型的AI智能体——包括原始版本的Claude 3.5 Sonnet和GPT-4o。

Claude 3.5 Haiku具备三点突出优势：

低延迟响应
更精准的指令执行能力
更准确的工具使用

这些特性使得模型特别适用于面向用户的产品开发、专门的子智能体任务处理、基于海量数据生成个性化体验。

本月末，Claude 3.5 Haiku将在多个平台上推出，包括API、多个云服务平台。（最初会以纯文本模型形式推出，随后会加入图像输入功能）

Claude 3.5 Haiku的定价起始为每百万输入Token 0.25美元，每百万输出Token 1.25美元。

通过使用提示词缓存技术可节省高达90%的成本，而使用消息批处理API则可节省50%的成本。

应用场景

凭借快速处理速度、改进的指令执行能力和更准确的工具使用，Claude 3.5 Haiku非常适合面向用户的产品、专门的辅助任务，以及从海量数据中生成个性化体验。

代码自动补全

Claude 3.5 Haiku能提供快速、准确的代码建议和补全，有效加速开发工作流程。特别适合希望简化编码过程并提高生产力的软件开发团队。

智能聊天机器人

借助增强的对话能力和快速的响应时间，Claude 3.5 Haiku在驱动能处理大量用户互动的响应式聊天机器人方面表现出色。对于需要可扩展互动能力的客户服务、电子商务和教育平台来说，它尤其有价值。

数据提取和自动标注

Claude 3.5 Haiku能高效处理和分类信息，在快速数据提取和自动标注任务中表现优异。这一能力对于需要处理金融、医疗保健和研究领域大量非结构化数据的组织特别有用。

自动实时内容审核

Claude 3.5 Haiku通过改进的推理和内容理解能力，提供可靠、即时的内容审核服务。这对于需要大规模维护安全、适当内容的社交平台、在线社区和媒体组织来说极具价值。

如何教会Claude操作电脑

研发团队表示，人类轻松执行的滚动、拖拽、缩放操作，目前对Claude仍很有挑战性。

而对于垃圾邮件、虚假信息、欺诈这类风险，团队正在寻找安全部署策略，如开发识别系统检测是否发生危害。

研究过程

该AI团队在工具使用和多模态方面的工作，为AI识别和解释图像奠定了基础。

在此基础上，Claude还需推理如何以及何时根据屏幕内容执行操作。

为此，研究者训练Claude准确计算像素，从而完成命令，因为它必须计算出垂直或水平移动鼠标指针的像素数，才能点击正确位置。

在此期间，Claude迅速将学习成功从计算器和文本编辑器这类简单软件的训练中，迁移到了其他应用（注意，期间它不允许联网）。

这种训练让它能将用户指令转化为一系列逻辑步骤并执行操作。遇到障碍时，甚至能自我纠正并重试任务。

小插曲

该AI团队开发者关系主管分享了开发计算机使用功能时的有趣故事。

当时，团队举行了一场工程师的bug bash活动，以确保发现API所有潜在问题。

这意味着，要把一群工程师关在房间里几个小时。

当时，恰好大家都饿了。其中一位工程师灵机一闪，不如让Claude来个实战演习，自主打开某外卖平台帮我们订餐。

没想到，大约一分钟后，Claude为工程师们定来了披萨。

展望未来

AI操作电脑能力代表了一种全新的人工智能开发方法。

迄今为止，LLM开发者一直在努力使工具适应模型，创造特殊环境，让AI使用专门设计的工具完成各种任务。

现在，该AI团队反其道而行之——选择让模型去适应工具。即Claude能像人类一样，融入日常使用的计算机环境，直接使用现有软件。

虽然Claude已达到当前最高水平，但其操作仍然相对缓慢且容易出错。日常使用电脑时的许多操作，如拖拽、缩放等，Claude都还无法做到。

此外，Claude当前观察屏幕的方式类似于快速翻阅一本画册——通过连续截图并拼接在一起，而非观察连续视频流。这意味着它可能错过一些短暂动作或通知。

有趣的是，该AI团队在录制Demo时，还遇到了一些有趣小插曲。

比如，在一次演示中，Claude不小心点击停止了一个长时间运行的屏幕录制，导致所有录像付诸东流。

而在另一次编码演示中，Claude则突然走神，开始饶有兴趣地浏览起国家公园的照片。

Claude当前能力已展现广阔前景，未来AI操作电脑的进步将让软件开发新手也能轻松驾驭，令人充满期待。

上一篇：在Windows上安装Codex CLI的新手指南下一篇：苹果AI落后两年？CEO库克回应来了：“不抢首发，只做最好”