微软CTO:AI大模型的“Scaling Law”还能走多远?

时间:2026-07-04 08:42:48 来源:互联网

本次对话的主角是微软首席技术官Kevin Scott。早在谷歌任职期间,我们便与您相识,彼时您与我们的合作伙伴比尔·考特已有交集。今天,比尔也将加入特别节目,希望您享受这场交流。

微软CTO:AI大模型的“Scaling Law”还能走多远?

Kevin Scott对主持人的欢迎表示感谢。

主持人:我知道您过去曾提及此事,但许多听众可能并不了解——一位来自弗吉尼亚州乡村的少年,如何一步步成长为微软的CTO?这似乎令人难以置信。

Kevin Scott:我认为这段经历确实无法复制。回顾我的人生,它只是在正确的时间出现在了正确的地点。如今我52岁,当PC革命全面爆发时,我恰好10到12岁。那时,我像所有孩子一样,试图弄清楚自己的兴趣所在以及未来的方向。

一个普遍的规律是:如果你对某件事充满兴趣,有强烈的动力去学习和实践,并且在这个过程中快速成长,你很可能最终会抵达一个合理的位置。我对计算机有着浓厚的兴趣,并且是家中第一个获得学士学位的成员。我主修计算机科学,辅修英语文学。所以,在某个时刻,我需要决定本科毕业后的去向。

当时我一贫如洗,厌倦了不断陷入困境,因此选择了务实的道路。尽管我认为拥有英语文学博士学位也不错,但我最终选择了计算机科学。我曾一度梦想成为计算机科学教授,并决定专攻编译、优化和编程语言领域。经过多年的研究生学习,我几乎坚持到了最后,但最终意识到自己并不想成为教授。花费六个月时间撰写一篇论文,只为让某个合成基准性能提升3%——这让我觉得,这种方式难以对世界产生重大影响,我也不想一生都重复这样的工作。

于是,2003年我向谷歌投递了简历。我收到了克雷格·内布尔·曼宁的邮件,他刚前往纽约开设谷歌的第一个远程工程师办公室。我经历了一场精彩的面试。不知道这是否是刻意安排,抑或只是运气使然,但谷歌几乎所有从事编译工作的同事都出现在了面试名单中,这简直不可思议。

这次面试带来的机会是,我最终加入了当时尚处初期的广告团队,正值移动设备即将起飞的关键时刻。我帮助建立了这家公司的移动广告基础设施,随后回到谷歌总部,接着又协助领英上市并管理其工程运营团队,最后我们被微软收购。

主持人:您身处正确的地点、正确的时间,并竭尽所能,在真正成长的事物上从事最有趣的工作。现在,我们将目光转向AI机器学习领域。

很明显,您在微软做了大量工作,并参与了与OpenAI等公司的合作。您如何看待AI实践团队?

Kevin Scott:我认为,如果你要构建非常复杂的平台级AI,例如用于训练和推理的大型分布式系统,这涉及网络、硅片以及各类系统软件组件,那么博士学位会非常有帮助。你需要扎实的基础知识,才能深入问题并快速推进。当然,你不一定非得拥有博士学位,但你需要足够聪明,而通常拥有博士学位的人都很聪明。因此,我认为博士学位能提供帮助,因为你已经历过相当严格的训练,掌握了大量先前的技术知识,有能力处理非常复杂的项目。

主持人:AI平台系统项目似乎有点类似。然而,当你获得博士学位时,通常会在自己的特定研究领域内相对孤立地工作。因此,人们需要学习的一件事是如何融入团队,并与他人进行有效协作。您的建议很有帮助。不过,除了构建平台之外,AI还有许多其他领域值得探索,例如如何将其应用于教育、医疗保健,以及如何围绕它构建开发人员工具等等。

说到这,微软似乎拥有最具影响力和雄心的AI战略。您能否用几句话概括微软的AI战略?如果给自己打分,您认为表现最好的工作是什么?而哪些工作相对没那么出色?

Kevin Scott:我们一直在这个话题上进行探讨。我认为,微软是一家平台公司,我们参与并推动了多次大型平台计算浪潮。当之无愧,我们是PC革命中的支柱公司之一,在互联网革命中也扮演了重要角色,尽管那可能是一个相对间接的角色。

我们的思考是,如何为这个特定的技术时代构建一个技术平台,允许其他人在此基础上构建有用的东西——这便是我们的AI策略。从前沿模型到小型语言模型,再到高度优化的推理基础设施,我们不断拓展训练和推理的规模,使整个平台更易于访问,让每一代模型都更便宜、更强大。像其他开发者工具一样,我们提供安全基础设施、测试以及一切必要组件,以便构建稳健的AI应用程序,从而填补技术空白。这就是我们的策略,我认为我们在这方面做得不错。

我是一名工程师,我认为大多数工程师都是短期悲观主义者,同时是长期乐观主义者。比如,“我不喜欢这些现状,还有很多问题需要解决,这让我沮丧,但我仍会处理所有问题,并相信最终都能解决。”因此,我认为有很多事情我们做得非常出色。这一点是绝对的:我们与OpenAI一起,使强大的AI能被更多人使用。由于与OpenAI的合作,我们发现了许多新客户,否则他们可能不会去构建强大的AI应用。所以,我觉得与OpenAI的合作非常成功。目前,我们秉持一个理念(虽然未来可能改变),即关于AI平台应是什么样子的理念,我们正在努力使其尽可能地完整。

我认为,我们确实在某些基础AI领域起步稍晚。但这并不意味着我们没有投资AI。微软研究院多年来做了大量工作,甚至可以看作是早期AI领域的领路人。

实际上,过去20年人工智能领域最重要的进步,大多与某种规模有关——通常是数据规模和计算规模的结合,这让你能够做到在较低规模点无法实现的事情。在某个时候,数据和算力呈指数级增长,以至于你可以进行分散的赌注。但从经济学角度讲,不可能同时将赌注押在10种不同且都在以指数级速度扩展的事物上。所以,我认为我们还有一件事做得稍晚,就是没有尽快将所有鸡蛋放进正确的篮子里。我们在AI上投入了大量资金,但分散在许多不同的项目上,因为我们不想伤害聪明人的感情。无论如何,我甚至不知道这些项目最终的结果是什么,因为其中很多决策发生在我加入微软之前。我们的行动速度没有达到应有水平,但如今我们已经将投资重点放在了扩大规模上。

主持人:您是什么时候开始信奉“规模至上”的?是否存在某个特定的时间点或事件?

Kevin Scott:我在微软工作了大约七年半。当我成为CTO时,我的工作就像是从左到右审视微软以及整个行业,试图找出哪些地方执行存在漏洞。大约两三年后,我意识到微软最大的问题就是AI进展速度不够快。所以,早在2017年中期,我就开始信奉扩大规模了,这成为我工作的重要组成部分,也帮助我们明确了战略方向。

在那之后不久,我重组了微软内部的大量业务,使其更加聚焦于AI。大约一年后,我们与OpenAI达成了第一笔交易。是的,我们一直在加快投资步伐,力求更加专注、清晰和有目的性。

主持人:您最初看中了OpenAI的什么潜力?

Kevin Scott:我们相信,或者至少我相信,随着这些模型的不断扩展,它们将成为构建平台的基础。

你拥有一个数据池、一堆机器和一个算法,就可以训练一个模型,但这个模型像是在训练一个特定的东西。就像我在谷歌做过的另一件事——广告点击率预测,精准且有效。但在GPT出现之前,大部分工作都集中在这些狭窄的用例上。就像你在为狭隘的事情构建模型,而且很难扩展。

如果你想重复这个过程,就必须拥有不同数据应用方向的博士和AI方向的博士。并且,只要想在应用中构建AI,就需要不同的流程。而当时OpenAI的这些大型语言模型对许多不同的事情都适用,这样你就不需要为机器翻译和情感分析分别建立模型了。我当时就想,这真是非同寻常。

随着规模扩大,迁移学习的效果会更好。我们知道,大型语言模型可以做加减法,所以当达到下一个规模点时,它们的能力集会变得略微或显著地更加通用。我们和OpenAI拥有相同的信念。他们对这些平台特征如何随时间随规模变化进行了非常原则性的分析,并通过大量实验验证了他们的猜想。

因此,找到一个与你有相同平台信念的合作伙伴,并且能够通过规模点来执行训练验证,这不像我以前做过的许多事情。我对过去的投资有更多保留,但对这次合作抱有很高的信念,尽管有许多人不同意这个观点。

主持人:您提到投资,现在有很多行业媒体在猜测训练模型的成本,有传言说要花费几十亿、几百亿美元。根据我自己的背景,我认为训练很快会被推理取代,否则我们建造的模型就没人知道该怎么用了,对吧?这样的投资可能并不划算。那么,您如何看待计算领域的发展?它将走向何方?人们会开玩笑说,现在所有的钱都流向了英伟达。

Kevin Scott:英伟达做得很好。就规模扩大的效率而言,目前正在发生的有趣现象是,每一代硬件的性价比都在提升,程度通常超过了摩尔定律在通用计算领域的应用。你知道,A100比V100的性价比要好三倍半,H100虽然没那么显著,但也很接近。从现有资料来看,下一代的表现也非常出色。因此,出于各种原因,你拥有的硬件在流程技术和架构组成这样的部分上是可以重复利用的。

你不需要64位的算术运算,而需要精度更低的算术运算。这样一来,并行性就大到令人尴尬的地步。我们在硬件架构上提取并行性的能力越来越强,网络方面也有很多创新。就像我们已经过了前沿模型的阶段,至少你无法在单个GPU上完成任何有趣的事情。多年以来,训练和推理都是如此。

实际上,自2012年以来,我们就没有进行过有效的功率缩放。晶体管越来越多,但温度却越来越低。我们面临许多密度问题,以及必须处理的功率耗散问题。

主持人:这种推论是否驱动着不同的数据中心架构?

Kevin Scott:我们已经以不同的方式构建了训练环境和推理环境。一直到硅片层面,再到网络层次结构,推理和训练需要不同的东西。推理比训练更容易,我们正在通过推理构建需要几年时间才能建成的大型环境。

如果有人提出了更好的硅架构、更好的网络架构、更好的冷却技术,就像这是一个更容易运行的实验,你只需要交换一些机架即可。我的意思是,这比做大型资本项目那样的训练环境更容易。所以,直觉上你会认为,这将导致推理环境更加多样化、竞争更加激烈、迭代速度更快。

在软件方面,我们看到推理堆栈的情况也是如此。因为它在整个计算占用空间中占了很大一部分,并且由于目前供不应求而受到限制。因此,你有很大的动力去优化软件堆栈,以榨取更高的性能。

主持人:您认为我们是否会很快处于需求供应平衡发生变化的环境中?不一定在微软,但感觉我们在市场层面也看到了这一点。

Kevin Scott:建立前沿模型是一件非常耗费资源的事情。只要人们喜欢构建前沿模型并使其易于访问,就像它们可能不是人们想要的可接受方式,你知道,只有API可访问,没有开源的东西可以实例化、到处乱搞。但是,就像你已经看到的趋势。

建立前沿模型是一件非常耗费资源的事情,只要人们喜欢构建前沿模型并致力于让它们易于访问,就要在这方面投入大量资金。如果你现在要开一家公司,前提是你必须建立起自己的前沿模型才行。

打个比方,就是我必须自己去构建智能手机硬件和操作系统,以便交付这个移动应用程序。

我认为,对市场而言有意义的事情是,你会希望看到很多人在做很多模型推理,因为这意味着你有很多产品找到了产品市场契合点,意味着这些东西正在扩展,但就像大量投机资金流入基础设施研发一样。

主持人:在扩展方面,微软前不久发表了一篇论文,指出训练数据的质量至少与数量同等重要。我认为现在你在业界看到的猜测是,我们正在耗尽高质量培训数据的来源。你至少读到过一些文章,声称正在建立各种合作关系以获取培训数据,而这些数据可能都在付费墙之后。你认为这种情况会如何发展?因为我们感觉计算能力越来越强,但训练数据却可能越来越少。

Kevin Scott:我认为这几乎是不可避免的。在我看来,数据的质量比数量更重要,这是一件好事,因为它能为人工智能训练算法提供模板,为未来的合作提供经济框架。

你知道,这将会产生更智能的模型。老实说,这样就不会浪费大量计算资源去做无关紧要的事情。我认为,从基础架构的角度来看,人们一直很困惑的一点是,大型语言模型不是数据库。如果你需要它成为你的检索引擎,你不应该把它想成是“嘿,我有了这个东西,就必须把所有东西都装进去”。

我们认为事情发展的方式是,你拥有对训练模型有价值的数据,然后你需要访问数据或应用程序,以便对模型进行推理。这两者是两码事。我认为,围绕这些东西,它们可能是两种不同的商业模式。

我们现在所有这些数据都在搜索引擎中,不是在随机权重中,而是非常明确地坐落在索引中,就像在谷歌等待被检索。你输入一个查询,然后要么发送流量,要么进行搜索引擎优化和广告投放,就像围绕这些的一大堆商业模式。

我认为,我们会为推荐数据找出一个商业模式。这样,当代理或人工智能应用需要从某人那里获取信息时,它就可以推理并给用户一个答案。我们会为此找出商业模式,要么是订阅,要么是分享,要么是授权,要么是新的广告模式。前几天我还在跟别人说,如果我现在还在20多岁,对于你们所有的创业者来说,现在就应该有人去搞清楚新广告单元对代理商来说是什么,就像刚刚建立的公司一样。因为它将与以前的广告单元具有相同的特点和品质,就像有信息、产品和服务的人,他们希望得到可能需要这些数据、产品和服务的人的关注。质量很重要,相关性也很重要,还有很多其他要素。

主持人:说起来,我们经常听到的一件事是,价值函数在某些方面是更广泛推理能力的瓶颈。但当你进入更广泛的领域时,构建价值函数变得更加困难。这个问题有实际的解决方案吗?有实际的影响吗?我想更广泛的问题是,你认为推理和元素的整体领域会走向何方?

Kevin Scott:我们只是通过一系列的基准范例来尝试得出结论。在过去的几年中,我们看到的有趣现象之一是,我们非常快速地饱和这些基准。在模型一代中,你会完全或非常接近饱和特定的基准,然后必须找到其他东西来帮助成为指路明灯。所以,你提到的这个问题实际上是一系列昂贵的实验,它们只能在你能想象到的最细粒度上昂贵地运行,就像教科书一样,它就像一个故事的一部分,为评估的象征性贡献力量。

主持人:你认为目前的模型处于什么水平?微软已经推出了一大批合作试点项目,试图帮助终端用户使用你的产品。另一方面,我看到很多公司都在尝试建立能够自主行动的代理。现在,这些模型的预期性能范围很广。你认为我们现在在哪里,未来几年将处于什么位置?

Kevin Scott:我认为这是一个非常好的问题。你知道,甚至有一个哲学观点认为每个人的工作都会被AI所取代。之所以给AI“副驾驶”的名号,是因为我们希望至少鼓励微软内部正在构建这些东西的每一个人思考:我如何才能帮助那些正在从事某种形式认知工作的人,让他们能够增强认知能力。

所以,我们想建立的是一个系统,而不是替代性技术。好消息是,当你把范围缩小到一个领域时,也更容易思考如何从粗略的前沿模型能力转变为有用的工具。因此,我认为这是一条合理的部署路径。我们已经有一些合作试点项目,现在已有了真正的市场牵引力,很多人都在日常使用。

并且实际上,副驾能做的工作越笼统,它就越难取代你自主采取高精度行动,特别是当你知道它在代表你做什么的时候。一旦它出现大量错误,用户的第一反应就是“这行不通”,“我好长一段时间都不会再试了”,这样的错误比比皆是。这意味着你又要针对用例进行优化,而不是超级宽泛的东西。因此,我们更希望在推出之前,它就已经非常完善。

主持人:每个人都以同样的方式开始玩OpenAI,然后也许他们开始使用一些其他专有的基础模型,结合一些开源模型,也许他们有一些自己的东西。那里有一个向量数据库。从架构的角度来看,感觉人们倾向于走一段不完全相同的旅程。但在12或18个月后,我们从他们那里听到的是,有一种巨大的八二法则在起作用——你可以非常快速和有效地自动化大部分任务,但最后一英里,最后百分之几,却难以让你真正信任它。

是的,对于许多任务来说,这似乎是相当难以捉摸的。所以我非常好奇的一件事是,基础模型本身何时才能变得足够好,以消除最后的那2%?

Kevin Scott:我认为,在一段时间内,这两者都会存在。我知道你们可能会问这个问题,不管别人怎么看,我们在扩大规模的同时没有看到边际收益的递减,我也一直试着让大家理解这点。实际上,我们有一个衡量参数,但每隔几年才能对进行一次采样,因为建造超级计算机和在其上训练模型都需要时间。

下个模型正在路上,我不能告诉你具体时间,也不能准确预测它会有多好,但它几乎肯定会更好,可以解决那些你会觉得“哦,我的上帝,这个有点太贵了”或“这太容易崩了”的问题。所有这些都会变得更好,并且变得更便宜、更耐用,让更复杂的事情成为可能。在每一代模型更迭中,这样的故事一直在上演。

我们甚至在微软内部都在思考这个问题。我们自己的开发人员在开发这些人工智能产品时可能会犯的一个错误就是,他们认为解决我的问题的唯一方法就是必须去利用当前的前沿技术,并用一大堆东西来补充它。但你也确实必须这么做,但在架构上要非常小心。当你这么做的时候,它并不会阻止你在下一个样本到来的时候采取下一个样本。所以,大家一心想的是架构好这些应用,当新的好东西来临时,你可以去把它应用上。我认为这是我们一直在反复锤炼的部分。

总结全文来看,面对AI技术的快速迭代,团队应保持灵活性以迎接新前沿。对前沿模型持怀疑态度的团队需要被给予适应空间,在相信自身判断的同时,为未来的变革做好准备。