半年过去:AI视频卷到哪儿了?
从年初Sora惊艳亮相至今,全球AI视频领域掀起了一场变革浪潮,国内外众多企业竞相入局,试图用人工智能技术颠覆传统影视制作模式。近期,AI视频产品密集发布,各家纷纷宣称要向Sora发起挑战,整个赛道呈现出前所未有的热闹景象。
国外两家AI视频初创公司率先展开竞争。旧金山人工智能科技公司Luma推出了Dream Machine视频生成模型,发布了一段堪比电影级别的宣传片,并向用户提供免费试用。另一家在AI视频领域颇具知名度的初创公司Runway,也宣布向部分用户开放Gen-3 Alpha模型的测试,声称能够精细呈现光影等细节。
国内企业同样不甘落后。快手推出的可灵Web端支持用户生成最长10秒的视频内容,并具备首尾帧控制和相机镜头控制功能。其原创AI奇幻短剧《山海奇镜之劈波斩浪》已在快手平台播出,所有画面均由AI生成。此外,AI科幻短剧《三星堆:未来启示录》也于近期播出,该作品由字节旗下的AI视频产品即梦制作完成。
AI视频如此快速的更新迭代速度,让不少网友感叹:“好莱坞可能又要经历一次大规模罢工了。”
如今,AI视频赛道汇聚了众多重量级玩家,包括谷歌、微软、Meta、阿里、字节、美图等国内外科技与互联网巨头,以及Runway、爱诗科技等新兴公司。据不完全统计,仅国内就有约20家企业推出了自主研发的AI视频产品或模型。
根据头豹研究院的数据,2021年中国AI视频生成行业的市场规模为800万元,预计到2026年,这一数字将增长至92.79亿元。不少业内人士认为,2024年生成视频赛道将迎来属于它的“Midjourney时刻”。
全球的Sora们现在发展到了什么阶段?哪家实力最强?AI真的能取代好莱坞吗?
1 围攻Sora:产品虽多,能用的少
AI视频赛道推出的产品与模型数量不少,但真正能够面向大众开放使用的却十分有限。国外的典型代表Sora在发布半年后仍处于内测阶段,仅对安全团队以及部分视觉艺术家、设计师和电影制作人开放。国内情况也大致相似,阿里达摩院的AI视频产品“寻光”和百度的AI视频模型UniVG均处于内测阶段。至于目前备受关注的快手可灵,用户若想使用也需要排队申请,这已经排除了大部分产品。
在剩余可用的AI视频产品中,一部分设置了使用门槛,用户需要付费或掌握一定的技术知识。例如,潞晨科技的Open-Sora,如果用户不具备代码基础,便无从下手。
通过梳理国内外公布的AI视频产品可以发现,各家产品的操作方式和功能大致相同。用户首先通过文字生成指令,同时选择画幅大小、图像清晰度、生成风格、视频时长等参数,最后点击一键生成即可。
这些功能背后的技术难度各不相同。其中最具挑战性的是生成视频的清晰度和时长,这也是各家AI视频厂商在宣传时竞相角逐的重点。这些指标与训练过程中使用的素材质量以及算力大小密切相关。
AI研究者Cyrus指出,目前国内外大多数AI视频产品支持生成480p或720p分辨率的视频,也有少数产品支持1080p高清视频。他进一步解释道,高质量素材越多,算力越高,训练出的模型就越能生成更高质量的视频。但这并不意味着拥有高质量素材和算力就一定能生成高质量内容。如果使用低分辨率素材训练的模型强行生成高分辨率视频,可能会出现画面崩坏或重复等问题,例如生成多手多脚的人物形象。这类问题可以通过放大、修复和重绘等方式解决,但效果和细节表现一般。
许多公司也将生成长视频时长作为主要卖点。
国内大部分AI视频产品支持生成2至3秒的视频,能够达到5至10秒的已属于较强产品。也有个别产品在时长方面表现突出,例如即梦最高支持长达12秒的视频。不过,这些产品均不及Sora,后者曾宣称最长能生成一段60秒的视频,但由于尚未开放使用,其具体表现尚无法验证。
仅仅追求时长还不够,生成的视频内容还必须合理。石榴AI首席研究员张恒表示,从技术层面讲,可以要求AI持续输出,毫不夸张地说,即使生成一个小时的视频也并非难事。但多数情况下,我们需要的并非一段监控视频或一个循环播放的风景动画,而是画面精美、富有故事的短片。
我们对五款国内较为热门的免费文生视频AI产品进行了测试,包括字节的即梦、Morph AI的Morph Studio、爱诗科技的PixVerse、MewXAI的艺映AI以及右脑科技的Vega AI。我们向它们输入了相同的文字指令:“一个穿着红裙子的小女孩,在公园里,喂一只白色的小兔子吃胡萝卜。”几款产品的生成速度相差不大,大约需要2至3分钟,但在清晰度、时长方面差异显著,而准确性方面更是表现各异,结果如下:

艺映AI

Vega AI

即梦

Morph

Pix Verse
各款产品的优缺点十分明显。即梦的优势在于时长,但生成质量不高,主角小女孩在后期直接变形。Vega AI也存在同样的问题。PixVerse的画质相对较差。相比之下,Morph生成的内容非常准确,但时长仅有短短2秒。艺映的画质不错,但对文字的理解不够到位,直接丢失了兔子这一关键元素,并且生成的视频不够写实,偏向漫画风格。总体而言,目前还没有一款产品能够生成一段完全符合要求的视频。
2 AI视频难题:准确性、一致性、丰富性
我们的实际体验效果与各家发布的宣传片之间存在较大差距。AI视频若想真正实现商业化应用,仍有相当长的一段路要走。张恒指出,从技术角度看,他们主要从三个维度来衡量不同AI视频模型的水平:准确性、一致性、丰富性。
为了便于理解这三个维度,张恒举了一个例子。比如生成一段“两个女孩在操场看篮球比赛”的视频。准确性体现在三个方面:第一,对内容结构理解的准确,例如视频中出现的必须是女孩,且数量为两个;第二,流程控制的准确,例如投篮命中后,篮球需要从篮网中逐渐落下;第三,静态数据建模的准确,例如当镜头出现遮挡物时,篮球不能变成橄榄球。一致性是指AI在时空上的建模能力,其中包含主体注意力和长期注意力。主体注意力可以理解为,在看篮球比赛的过程中,两个小女孩需要始终保持在画面中,不能随意离开。长期注意力则是指,在运动过程中,视频中的各个元素既不能丢失,也不能出现变形等异常情况。丰富性则是指,AI具备自身的逻辑,即使在缺乏文字提示的情况下,也能生成一些合理的细节内容。
在上述维度上,市面上现有的AI视频工具基本都未能完全做到,各家也在不断探索解决方案。例如,在视频中非常重要的人物一致性方面,即梦和可灵采用了图生视频的方式来取代文生视频。用户先使用文字生成图片,再用图片生成视频,或者直接提供一两张图片,由AI将其连接成动态视频。张恒表示,这并不属于新的技术突破,而且图生视频的难度要低于文生视频。文生视频的原理是,AI首先对用户输入的文字进行解析,将其拆解为一组分镜描述,然后将描述转换为文本,再转换为图片,从而获得视频的中间关键帧,最后将这些图片连接起来,形成连续且有动作的视频。而图生视频相当于为AI提供了一张可模仿的具体图片,生成的视频会延续图片中的人脸特征,从而实现主角的一致性。他还指出,在实际应用场景中,图生视频的效果更符合用户预期,因为文字表达画面细节的能力有限,有图片作为参考会对生成视频有所帮助,但目前仍达不到商业应用的程度。直观来看,5秒是图生视频的上限,超过10秒的意义可能不大,要么内容出现重复,要么结构扭曲导致质量下降。
目前,许多宣称使用AI进行全流程制作的影视短片,大多采用图生视频或视频到视频的方式。即梦的尾帧功能也使用了图生视频技术,我们特意进行了尝试,结果如下:

在结合过程中,人物出现了变形和失真的问题。Cyrus也表示,视频讲究连贯性,许多AI视频工具支持图转视频,也是通过单帧图片来推测后续动作。至于推测是否准确,目前仍存在不确定性。据了解,在文生视频中实现主角一致性,各家也并非完全依赖数据生成。张恒表示,大多数模型都是在原有底层DIT大模型的基础上,叠加各种技术,例如ControlVideo,从而加深AI对主角面部特征的记忆,使人脸在运动过程中不会发生太大变化。不过,这些技术目前仍处于尝试阶段,即使进行了技术叠加,也尚未完全解决人物一致性问题。
3 AI视频,为什么进化慢?
在AI领域,目前竞争最为激烈的国家是美国和中国。根据《2023年全球最具影响力人工智能学者》相关报告,2020年至2023年全球“AI 2000机构”4年累计的1071家机构中,美国拥有443家,中国以137家位居第二。从2023年“AI 2000学者”的国别分布来看,美国入选人数最多,共1079人,占全球总数的54.0%;中国紧随其后,共280人入选。
近两年,AI在文生图、文生音乐方面取得了显著进步,而最难突破的AI视频领域也取得了一些进展。在近期举办的世界人工智能大会上,倚天资本合伙人乐元公开表示,视频生成技术在近两三年取得了远超预期的进步。新加坡南洋理工大学助理教授刘子纬则认为,视频生成技术目前处于GPT-3时代,距离成熟还有大约半年的时间。不过,乐元也强调,目前的技术水平还不足以支撑大范围的商业化应用,基于语言模型开发应用时所使用的方法论以及遇到的挑战,在视频相关应用领域也同样适用。
年初Sora的亮相震惊全球,它基于transformer架构的新型扩散模型DiT,在扩散和生成技术方面取得了突破,提高了图像生成质量和写实程度,使得AI视频领域取得了重大进展。Cyrus表示,目前国内外的文生视频产品,大多沿用了类似的技术。

图源 / Sora官网
目前,各家在底层技术上基本一致。虽然它们也在以此为基础寻求技术突破,但更多竞争集中在训练数据方面,以丰富产品功能。用户在使用字节的即梦和Morph AI的Morph Studio时,可以选择视频的运镜方式,其背后的原理便是数据集不同。张恒表示,以往各家在训练时使用的图片都比较简单,更多是对图片中存在的元素进行标注,但没有交代元素所使用的镜头类型。这使得许多公司发现了这一缺口,于是使用3D渲染视频数据集来补充镜头特征。目前,这些数据主要来自影视行业和游戏公司的效果图。我们也尝试了这一功能,但镜头变化并不明显。
Sora们之所以比GPT、Midjourney们发展得更慢,是因为它们多搭建了一个时间轴,并且训练视频模型比训练文字和图片模型更加困难。张恒指出,目前可用的视频训练数据已经基本挖掘殆尽,他们也在思考新方法,以制造一系列可供训练的数据。此外,每个AI视频模型都有自己擅长的风格,例如快手可灵生成的吃播视频效果更好,因为其背后有大量此类数据作为支撑。石榴AI创始人沈仁奎认为,AI视频技术包括文本转视频、图片转视频、视频转视频以及数字人技术。其中,能够定制形象和声音的数字人已经应用于营销领域,达到了商业应用的程度。而文生视频技术仍需解决精准度和可控度问题。
目前,无论是抖音和博纳合作的AI科幻短剧《三星堆:未来启示录》,还是快手原创的AI奇幻短剧《山海奇镜之劈波斩浪》,更多是大模型公司主动与影视制作团队合作,以满足推广自身技术产品的需求,而且这些作品也尚未实现出圈。在短视频领域,AI的发展仍有很长的路要走,而“AI干掉好莱坞”的说法更是为时尚早。