半年过去:AI视频卷到哪儿了？

时间：2026-07-05 08:44:41 来源：互联网

从年初Sora惊艳亮相至今，全球AI视频领域掀起了一场变革浪潮，国内外众多企业竞相入局，试图用人工智能技术颠覆传统影视制作模式。近期，AI视频产品密集发布，各家纷纷宣称要向Sora发起挑战，整个赛道呈现出前所未有的热闹景象。

国外两家AI视频初创公司率先展开竞争。旧金山人工智能科技公司Luma推出了Dream Machine视频生成模型，发布了一段堪比电影级别的宣传片，并向用户提供免费试用。另一家在AI视频领域颇具知名度的初创公司Runway，也宣布向部分用户开放Gen-3 Alpha模型的测试，声称能够精细呈现光影等细节。

国内企业同样不甘落后。快手推出的可灵Web端支持用户生成最长10秒的视频内容，并具备首尾帧控制和相机镜头控制功能。其原创AI奇幻短剧《山海奇镜之劈波斩浪》已在快手平台播出，所有画面均由AI生成。此外，AI科幻短剧《三星堆：未来启示录》也于近期播出，该作品由字节旗下的AI视频产品即梦制作完成。

AI视频如此快速的更新迭代速度，让不少网友感叹：“好莱坞可能又要经历一次大规模罢工了。”

如今，AI视频赛道汇聚了众多重量级玩家，包括谷歌、微软、Meta、阿里、字节、美图等国内外科技与互联网巨头，以及Runway、爱诗科技等新兴公司。据不完全统计，仅国内就有约20家企业推出了自主研发的AI视频产品或模型。

根据头豹研究院的数据，2021年中国AI视频生成行业的市场规模为800万元，预计到2026年，这一数字将增长至92.79亿元。不少业内人士认为，2024年生成视频赛道将迎来属于它的“Midjourney时刻”。

全球的Sora们现在发展到了什么阶段？哪家实力最强？AI真的能取代好莱坞吗？

1 围攻Sora：产品虽多，能用的少

AI视频赛道推出的产品与模型数量不少，但真正能够面向大众开放使用的却十分有限。国外的典型代表Sora在发布半年后仍处于内测阶段，仅对安全团队以及部分视觉艺术家、设计师和电影制作人开放。国内情况也大致相似，阿里达摩院的AI视频产品“寻光”和百度的AI视频模型UniVG均处于内测阶段。至于目前备受关注的快手可灵，用户若想使用也需要排队申请，这已经排除了大部分产品。

在剩余可用的AI视频产品中，一部分设置了使用门槛，用户需要付费或掌握一定的技术知识。例如，潞晨科技的Open-Sora，如果用户不具备代码基础，便无从下手。

通过梳理国内外公布的AI视频产品可以发现，各家产品的操作方式和功能大致相同。用户首先通过文字生成指令，同时选择画幅大小、图像清晰度、生成风格、视频时长等参数，最后点击一键生成即可。

这些功能背后的技术难度各不相同。其中最具挑战性的是生成视频的清晰度和时长，这也是各家AI视频厂商在宣传时竞相角逐的重点。这些指标与训练过程中使用的素材质量以及算力大小密切相关。

AI研究者Cyrus指出，目前国内外大多数AI视频产品支持生成480p或720p分辨率的视频，也有少数产品支持1080p高清视频。他进一步解释道，高质量素材越多，算力越高，训练出的模型就越能生成更高质量的视频。但这并不意味着拥有高质量素材和算力就一定能生成高质量内容。如果使用低分辨率素材训练的模型强行生成高分辨率视频，可能会出现画面崩坏或重复等问题，例如生成多手多脚的人物形象。这类问题可以通过放大、修复和重绘等方式解决，但效果和细节表现一般。

许多公司也将生成长视频时长作为主要卖点。

国内大部分AI视频产品支持生成2至3秒的视频，能够达到5至10秒的已属于较强产品。也有个别产品在时长方面表现突出，例如即梦最高支持长达12秒的视频。不过，这些产品均不及Sora，后者曾宣称最长能生成一段60秒的视频，但由于尚未开放使用，其具体表现尚无法验证。

仅仅追求时长还不够，生成的视频内容还必须合理。石榴AI首席研究员张恒表示，从技术层面讲，可以要求AI持续输出，毫不夸张地说，即使生成一个小时的视频也并非难事。但多数情况下，我们需要的并非一段监控视频或一个循环播放的风景动画，而是画面精美、富有故事的短片。

我们对五款国内较为热门的免费文生视频AI产品进行了测试，包括字节的即梦、Morph AI的Morph Studio、爱诗科技的PixVerse、MewXAI的艺映AI以及右脑科技的Vega AI。我们向它们输入了相同的文字指令：“一个穿着红裙子的小女孩，在公园里，喂一只白色的小兔子吃胡萝卜。”几款产品的生成速度相差不大，大约需要2至3分钟，但在清晰度、时长方面差异显著，而准确性方面更是表现各异，结果如下：

艺映AI

Vega AI

即梦

Morph

Pix Verse

各款产品的优缺点十分明显。即梦的优势在于时长，但生成质量不高，主角小女孩在后期直接变形。Vega AI也存在同样的问题。PixVerse的画质相对较差。相比之下，Morph生成的内容非常准确，但时长仅有短短2秒。艺映的画质不错，但对文字的理解不够到位，直接丢失了兔子这一关键元素，并且生成的视频不够写实，偏向漫画风格。总体而言，目前还没有一款产品能够生成一段完全符合要求的视频。

2 AI视频难题：准确性、一致性、丰富性

我们的实际体验效果与各家发布的宣传片之间存在较大差距。AI视频若想真正实现商业化应用，仍有相当长的一段路要走。张恒指出，从技术角度看，他们主要从三个维度来衡量不同AI视频模型的水平：准确性、一致性、丰富性。

为了便于理解这三个维度，张恒举了一个例子。比如生成一段“两个女孩在操场看篮球比赛”的视频。准确性体现在三个方面：第一，对内容结构理解的准确，例如视频中出现的必须是女孩，且数量为两个；第二，流程控制的准确，例如投篮命中后，篮球需要从篮网中逐渐落下；第三，静态数据建模的准确，例如当镜头出现遮挡物时，篮球不能变成橄榄球。一致性是指AI在时空上的建模能力，其中包含主体注意力和长期注意力。主体注意力可以理解为，在看篮球比赛的过程中，两个小女孩需要始终保持在画面中，不能随意离开。长期注意力则是指，在运动过程中，视频中的各个元素既不能丢失，也不能出现变形等异常情况。丰富性则是指，AI具备自身的逻辑，即使在缺乏文字提示的情况下，也能生成一些合理的细节内容。

在上述维度上，市面上现有的AI视频工具基本都未能完全做到，各家也在不断探索解决方案。例如，在视频中非常重要的人物一致性方面，即梦和可灵采用了图生视频的方式来取代文生视频。用户先使用文字生成图片，再用图片生成视频，或者直接提供一两张图片，由AI将其连接成动态视频。张恒表示，这并不属于新的技术突破，而且图生视频的难度要低于文生视频。文生视频的原理是，AI首先对用户输入的文字进行解析，将其拆解为一组分镜描述，然后将描述转换为文本，再转换为图片，从而获得视频的中间关键帧，最后将这些图片连接起来，形成连续且有动作的视频。而图生视频相当于为AI提供了一张可模仿的具体图片，生成的视频会延续图片中的人脸特征，从而实现主角的一致性。他还指出，在实际应用场景中，图生视频的效果更符合用户预期，因为文字表达画面细节的能力有限，有图片作为参考会对生成视频有所帮助，但目前仍达不到商业应用的程度。直观来看，5秒是图生视频的上限，超过10秒的意义可能不大，要么内容出现重复，要么结构扭曲导致质量下降。

目前，许多宣称使用AI进行全流程制作的影视短片，大多采用图生视频或视频到视频的方式。即梦的尾帧功能也使用了图生视频技术，我们特意进行了尝试，结果如下：

在结合过程中，人物出现了变形和失真的问题。Cyrus也表示，视频讲究连贯性，许多AI视频工具支持图转视频，也是通过单帧图片来推测后续动作。至于推测是否准确，目前仍存在不确定性。据了解，在文生视频中实现主角一致性，各家也并非完全依赖数据生成。张恒表示，大多数模型都是在原有底层DIT大模型的基础上，叠加各种技术，例如ControlVideo，从而加深AI对主角面部特征的记忆，使人脸在运动过程中不会发生太大变化。不过，这些技术目前仍处于尝试阶段，即使进行了技术叠加，也尚未完全解决人物一致性问题。

3 AI视频，为什么进化慢？

在AI领域，目前竞争最为激烈的国家是美国和中国。根据《2023年全球最具影响力人工智能学者》相关报告，2020年至2023年全球“AI 2000机构”4年累计的1071家机构中，美国拥有443家，中国以137家位居第二。从2023年“AI 2000学者”的国别分布来看，美国入选人数最多，共1079人，占全球总数的54.0%；中国紧随其后，共280人入选。

近两年，AI在文生图、文生音乐方面取得了显著进步，而最难突破的AI视频领域也取得了一些进展。在近期举办的世界人工智能大会上，倚天资本合伙人乐元公开表示，视频生成技术在近两三年取得了远超预期的进步。新加坡南洋理工大学助理教授刘子纬则认为，视频生成技术目前处于GPT-3时代，距离成熟还有大约半年的时间。不过，乐元也强调，目前的技术水平还不足以支撑大范围的商业化应用，基于语言模型开发应用时所使用的方法论以及遇到的挑战，在视频相关应用领域也同样适用。

年初Sora的亮相震惊全球，它基于transformer架构的新型扩散模型DiT，在扩散和生成技术方面取得了突破，提高了图像生成质量和写实程度，使得AI视频领域取得了重大进展。Cyrus表示，目前国内外的文生视频产品，大多沿用了类似的技术。

图源 / Sora官网

目前，各家在底层技术上基本一致。虽然它们也在以此为基础寻求技术突破，但更多竞争集中在训练数据方面，以丰富产品功能。用户在使用字节的即梦和Morph AI的Morph Studio时，可以选择视频的运镜方式，其背后的原理便是数据集不同。张恒表示，以往各家在训练时使用的图片都比较简单，更多是对图片中存在的元素进行标注，但没有交代元素所使用的镜头类型。这使得许多公司发现了这一缺口，于是使用3D渲染视频数据集来补充镜头特征。目前，这些数据主要来自影视行业和游戏公司的效果图。我们也尝试了这一功能，但镜头变化并不明显。

Sora们之所以比GPT、Midjourney们发展得更慢，是因为它们多搭建了一个时间轴，并且训练视频模型比训练文字和图片模型更加困难。张恒指出，目前可用的视频训练数据已经基本挖掘殆尽，他们也在思考新方法，以制造一系列可供训练的数据。此外，每个AI视频模型都有自己擅长的风格，例如快手可灵生成的吃播视频效果更好，因为其背后有大量此类数据作为支撑。石榴AI创始人沈仁奎认为，AI视频技术包括文本转视频、图片转视频、视频转视频以及数字人技术。其中，能够定制形象和声音的数字人已经应用于营销领域，达到了商业应用的程度。而文生视频技术仍需解决精准度和可控度问题。

目前，无论是抖音和博纳合作的AI科幻短剧《三星堆：未来启示录》，还是快手原创的AI奇幻短剧《山海奇镜之劈波斩浪》，更多是大模型公司主动与影视制作团队合作，以满足推广自身技术产品的需求，而且这些作品也尚未实现出圈。在短视频领域，AI的发展仍有很长的路要走，而“AI干掉好莱坞”的说法更是为时尚早。

上一篇：OpenAI掀小模型血战苹果DCLM强势登场碾压Mistral 7B全开源下一篇：Nature重磅：AI击败最先进全球传统天气、气候模型：30秒生成22.8天大气模拟：准确预测40年全球变暖趋势