AI正式进入推理时代:这意味着什么
在今年9月,OpenAI推出的o1模型标志着AI发展从预训练的“快速思考”转向基于强化学习的“慢速思考”,这一演变正解锁全新的AI代理应用。

这一变化意味着AI的发展方向已发生重大转变,即从预训练驱动下快速反应式的思考模式,演进到基于强化学习、需要更多时间深入处理的慢速思考模式。这种演进将开启许多新型AI代理应用的可能性。
如何解读这一变化,已成为所有AI行业参与者共同关注的焦点。不久前,红杉资本发布了一篇文章,详细阐述了对AI转向推理层开发的看法及未来趋势的展望。
该文章探讨了模型强化推理能力对AI市场创始人的意义、对现有软件公司的影响,以及投资者应关注的AI行业领域。
01 让AI真正学会推理
2024年最重要的模型更新是OpenAI的o1,它此前被称为Q*或Strawberry。这是第一个具备真正通用推理能力的大模型,其实现依赖于推理时间计算。推理时间计算是指在人工智能和机器学习中,通过增加额外计算时间来优化模型解决特定问题时的表现。
过去的预训练模型通过大量数据学习来预测后续内容,这背后依赖大量的模型训练时间,但其推理能力非常有限。
如今,通过推理时间计算,模型会在给出答复之前停下来进行思考,这需要在推理时执行更多计算。“停下来思考”这一过程正是推理的核心。
02 AlphaGo和大模型
当模型停下思考时,它究竟在做什么呢?
要回答这个问题,让我们回顾一下2016年3月在首尔举行的一项活动。
AlphaGo与传奇围棋大师李世石的对弈,是深度学习历史上最具开创性的时刻之一。这不仅仅是一场人类与AI的比赛——它让世界看到AI不仅能模仿,还能进行思考。
与大模型类似,AlphaGo也经过大量预训练,能模仿人类专家,其数据库包含约3000万步来自之前棋局的数据以及更多的自我对弈。但AlphaGo不会直接给出预训练模型的下意识反应,而是会花时间停下来思考。
在推理过程中,模型会在多种潜在未来情景中执行搜索或模拟,对这些情景进行评分,然后以具有最高预期值的情景或答案进行响应。AlphaGo的思考时间越长,其表现就越好。在零推理时间计算的情况下,它无法击败最优秀的人类玩家。但随着推理时间的延长,AlphaGo的表现越来越好,最终超越最优秀的人类玩家。
回到大模型,复制AlphaGo的难点在于构建价值函数,即对答案进行评分的函数。
在下围棋的情境中,这件事相对简单,只需判断谁获胜即可,编程也是同理。但如何为一篇文章打分呢?这正是当前方法难以进行推理的原因。这也解释了为什么Strawberry在逻辑相关的领域如编码、数学和科学方面相对较强,而在更开放、非结构化的领域如写作方面则不那么强大。
Strawberry的关键思想是围绕模型生成的思维链进行强化学习。这非常接近人类的思考和推理方式。例如,o1展示了在卡住时回溯的能力,这是扩展推理时间后出现的突发属性。它还展示了以人类方式思考问题的能力,比如在解决几何问题时将球体上的点可视化,以及以新的方式思考问题的能力,比如用人类不会的方式解决编程竞赛中的问题。
研究团队正在努力提高模型的推理能力,他们正在研究许多新想法来推动推理时间计算,例如计算奖励函数的新方法、缩小生成器与验证器差距的新方法。换言之,深度强化学习再次流行起来,它正在实现一个全新的推理层。
03 系统1与系统2有何不同?
从预训练驱动的本能反应(系统1)到更深层次、深思熟虑的推理(系统2)的飞跃,是人工智能的下一个前沿。模型仅仅了解事物是不够的,它们还需要具备实时暂停、评估和推理决策的能力。
我们将预训练视为系统1。无论是针对围棋数百万步的AlphaGo,还是大模型的预训练,其工作原理都是模仿。但模仿虽然强大,却并非真正的推理,因为它无法正确思考复杂的新情况,特别是样本之外的情况。这正是系统2的优势所在,也是最新一波AI研究的重点。
对于许多任务来说,系统1已经足够。例如,不丹的首都是哪里?这种问题无法靠思考得出,要么知道,要么不知道。快速、基于模式的回忆在处理类似任务时非常有效。
但当我们研究更复杂的问题时,比如数学或生物学上的突破,快速、本能的反应就不太奏效了。这些进步需要AI花费更多时间进行更深入的思考,并具备创造性解决问题的能力。
04 新的扩展定律:推理竞赛已拉开帷幕
o1论文中最重要的一个观点是诞生了一条新的扩展定律。
预训练LLM遵循一个易于理解的扩展定律:在预训练模型上花费的计算和数据越多,模型性能就越好。o1论文则为扩展计算带来了另一种可能性:即模型推理时间越长,其推理效果就越好。
如果模型能够思考数小时、数天或数十年,会发生什么?我们会解决黎曼猜想吗?我们会回答阿西莫夫的最后一个问题吗?
这种转变将使我们从大规模预训练集群的世界走向推理云——这是一个可以根据任务复杂性动态扩展计算的环境。
05 被证伪的两个预测
当OpenAI、Anthropic、Google和Meta扩展其推理层,并开发出越来越强大的推理机器时会发生什么?会有一个模型来统治所有吗?
在生成式AI市场刚起步时,人们曾假设一家单一的模型公司将变得无所不能,甚至会吃掉AI应用产品的机会。但现在,这两个预测都已被证伪。
首先,模型层竞争激烈,SOTA能力不断被超越。有公司试图通过广泛领域的自我博弈找到持续自我改进的方法并取得突破,但目前我们尚未看到这方面的证据。但我们能清楚看到模型竞争的激烈程度:自上一个开发日以来,GPT-4的token价格已下跌98%。
其次,除了ChatGPT外,大部分模型很难在应用层面形成较大的突破。
混乱的现实世界:定制认知架构。科学家计划和采取行动实现目标的方式,与软件工程师的工作方式截然不同,甚至不同公司的软件工程师情况也有所不同。
随着AI研究不断提升模型推理能力的上限,我们仍然需要具体的应用落地。但通用模型很难在特定领域实现具体落地。
认知架构是指您的系统如何思考:接受用户输入并执行操作或生成响应的代码流和模型交互。
例如,在Factory的案例中,他们的每个“机器人”产品都具有自定义认知架构,能模仿人类解决特定任务的思维方式,例如审查拉取请求或编写和执行迁移计划,以将服务从一个后端更新到另一个后端。
Factory机器人会分解所有依赖关系,提出相关的代码更改,添加单元测试并拉取人类进行审查。在批准后,它会在开发环境中对所有文件运行更改,如果所有测试通过,则合并代码。这就像人类可能会做的那样——在一组离散任务中执行,而不是提供一个通用的黑盒答案。
07 应用层,或许是创业者的最佳选择
目前,基础模型固然厉害,但也有不少缺陷。例如,大模型无法处理黑匣子、幻觉等问题,或者消费者面对大模型不知道问什么。这些都是应用层的机会。
两年前,许多AI应用公司被嘲笑为“只是GPT-3上的包装器”。如今,这些包装器被证明是构建持久价值的唯一可靠方法之一。最初的“包装器”已经演变成“认知架构”。
应用层AI公司的价值不仅仅是基础模型之上的UI。更重要的是,它们拥有复杂的认知架构,包括多个基础模型,顶部有某种路由机制、用于RAG的矢量和/或图形数据库、确保合规性的护栏,以及模仿人类思考工作流程推理方式的应用程序逻辑。
08 服务即软件
云计算的本质是软件即服务。这让软件产业变成了一个价值3500亿美元的机会。
到了AI时代,类似的机会同样出现。人工智能转型的本质是服务即软件,即AI公司用AI应用替代劳动力。这意味着,AI应用可能面临着价值数万亿美元的服务市场。
劳动力替代意味着什么?Sierra就是一个很好的例子。B2C公司将Sierra放在他们的网站上与客户交谈,用AI代理来解决客户提出的问题,每完成一次服务获得相应报酬。这与传统软件按“席位”付费的模式有很大区别。
这是许多AI公司所追求的目标。但并非所有公司都这么幸运,现在出现的另一个新兴模式是,先部署为副驾驶(人机交互),然后再迭代成完全自动化。GitHub Copilot就是一个很好的例子。
09 新一代代理应用
随着生成式人工智能的推理能力不断增强,一类新的代理应用程序开始涌现。这些应用层公司是什么样子的?至少从目前看,这些公司与云计算公司有许多不同之处:
云计算公司瞄准的是软件利润池,而人工智能公司瞄准的是服务利润池。云计算公司出售软件,按席位收费;人工智能公司出售工作,按成果收费。云计算公司喜欢自下而上,采用无摩擦分销模式;而人工智能公司则越来越多地采用自上而下,采用高接触、高信任的交付模式。
我们看到,这些新型代理应用正在知识经济的各个领域涌现。以下是一些示例:
Harvey: AI律师
Glean: AI工作助理
Factory: AI软件工程师
Abridge: AI医疗文书记录员
XBOW: AI测试员
Sierra: AI客服
通过降低提供这些服务的边际成本,这些代理应用程序正在扩展并创造新的市场。
以XBOW为例,XBOW正在构建AI“渗透测试员”。渗透测试是对计算机系统进行的模拟网络攻击,公司通过执行此测试来评估自己的安全系统。
在生成式AI出现之前,由于人工测试成本高昂,公司仅在个别情况下才能聘请渗透测试员。然而,XBOW现在正展示基于最新推理LLM构建的自动化渗透测试,其效果可与最熟练的人工渗透测试员相媲美。这扩大了渗透测试市场,并为各种规模的公司提供了持续渗透测试的可能性。
10 这对SaaS世界意味着什么?
现在很多人都关心一个问题:人工智能转型是否会摧毁SaaS公司?
之前,由于AI能力绝大部分都来自模型,我们曾认为老牌SaaS公司受益于数据和分销方面的优势,会最终受益。初创公司的主要机会不是取代老牌软件公司,而是追逐可自动化的市场机会。
但现在,我们不再那么确定了,因为将模型能力转化为端到端业务解决方案需要大量的工程设计。那么,AI企业是否会最终取代软件?我们可以从Day.ai的案例中看出一些端倪。
Day是一款人工智能原生的CRM。此前,系统集成商通过配置Salesforce来满足客户需求,赚取了数十亿美元。现在,Day只需访问用户的电子邮件和日历,并回答一页问卷,即可自动生成完全适合客户业务的CRM。单靠这一点,Day就已经吸引了很多客户。
11 投资人应该投什么?
作为投资者,我们应该如何投资AI产业呢?以下是简要分析。
基础设施:这已是巨头的战场,更多是战略博弈的选择而非经济利益驱动,对于VC来说并非好的选择。
模型:这是巨头和金融投资者的领域。巨头正在用资产负债表换取损益表,投资的资金将以计算收入的形式回流到他们的云业务中。金融投资者则热衷于讨论AI的宏大叙事。虽然这些模型很厉害,团队也很强,但很难用微观经济学去理解。
开发工具和基础设施软件:对战略投资者价值很小,更适合VC参与。在云转型时期,这个领域跑出了15家收入超过10亿美元的公司,AI领域也会如此。
应用程序:这是最适合VC参与的领域。在云计算转型期间,大约有20家应用层公司成立,收入超过10亿美元。在移动互联网时期,又有大约20家公司成立。AI时代大致也会如此。
12 结束语
在生成式人工智能的下一阶段,推理研发将逐步影响应用层,AI代理将变得更加强大和复杂。回到研发层面,推理和推理时间计算在可见未来仍是重要驱动因素,这是下一场AI竞赛的主题。但在特定领域,收集现实世界数据建立认知仍然困难,因此能完成AI落地最后一公里的公司将具有巨大价值。展望未来,多智能体系统如Factory的机器人可能迎来更大发展。当我们模拟了感知、推理和行动的过程,AI可以用这种方式进行更多探索,或许这就是通往AGI的正确道路。