从LLM到JEPA:中国团队正在把“世界模型”搬进细胞内部

时间:2026-07-05 08:19:47 来源:互联网

AI虚拟细胞领域迎来重大进展:全球首个基于LLM-JEPA架构的AI虚拟细胞世界模型正式发布。该模型基于3.905亿个人类单细胞转录组数据训练,参数规模达12B,覆盖40余种人体组织和260余种细胞类型,其核心突破在于将JEPA与世界模型理念系统性引入单细胞研究。

该模型是目前公开报道中参数规模最大的单细胞基础模型,训练数据覆盖几乎所有重要人类细胞类型。

其最受关注的突破在于,它首次将JEPA(联合嵌入预测架构)与世界模型理念系统性引入单细胞研究。世界模型已成为自动驾驶、机器人及生成式AI领域的关键技术方向。这一模型的出现引发外界好奇:在高度复杂的生命科学领域,世界模型能否真正落地并产生实质价值?

根据公开评测结果,该模型在预测精度、扰动建模等核心指标上与多款主流模型拉开倍数差距,达到当前国际领先(SOTA)水平。要深入理解其技术逻辑与商业价值,还需从一颗细胞开始探讨。

AIVC走到十字路口

理解细胞变化是生命科学最核心的问题之一。疾病发生、药物作用、细胞治疗,本质上都是细胞状态发生变化的过程。过去,科学家只能通过细胞培养、动物实验乃至人体验证来探究细胞在药物、基因扰动等刺激下的变化。高昂的研发成本和漫长的试验周期,使大量潜在新药和细胞疗法陷入漫长试错,“十年研发周期、十亿美元投入,临床成功率却不足10%”的“双十定律”亟待被终结。

img_6a49a322a849930.webp

△图片由AI生成

“虚拟细胞”的出现为新药发现开辟了全新路径。早在20世纪90年代,就有学者探索在计算机里“复刻”细胞的想法,并开发了VCell等早期细胞建模软件。随后,斯坦福大学研究团队发布了全球首个全细胞计算模型。但此前的虚拟细胞并非学习型模拟器,无法模拟细胞在不同条件和变化环境下的运作,也无法预测细胞功能、行为和动力学,难以揭示其背后的机制,限制了在药物开发中的应用价值。

直到近年AI技术突飞猛进,叠加组学技术迅猛发展,才让虚拟细胞更接近生命科学的“模拟沙盘”:

  1. 单细胞测序技术的指数级进步及成本降低,显著提升了数据采集能力,过去几年中,这些数据每6个月翻一番,为建模提供了底层基础。
  2. AI技术的进步则显著增强了细胞数据的处理、学习和推理能力。

2024年12月,美国一家研究机构与制药公司及基金会组成的联合科研团队在顶级期刊《Cell》发表重磅论文,点燃了全球研发热潮:AI虚拟细胞(AIVC)的时代正式宣告到来。

img_6a49a322b7dd931.webp

△图片由AI生成

在此之前,Geneformer、scGPT、scFoundation、GeneCompass等一批模型已相继问世,但业内尚未统一AIVC的叫法。这些早期模型解决了细胞类型识别等基础需求,但在预测细胞动态变化上存在明显局限。例如,在敲除基因、给药或诱导分化后,细胞会如何演化?第一代AIVC模型在这类动态预测任务上仍存在明显局限。核心原因在于,其训练目标主要聚焦于学习基因表达模式本身,而非细胞状态变化的内在机制,因此难以区分哪些表达变化只是背景噪声,哪些才是真正驱动细胞状态演化的关键信号。

由于模型主要基于单一表达视角学习静态基因表达模式,难以刻画基因调控关系及细胞状态演化的动态规律。许多只有在特定扰动条件下才显现的关键生物学信号,容易被大量稳定表达的背景信号所淹没。因此,仅靠不断扩大数据规模和模型参数,并不能显著提升模型对细胞状态演化轨迹的预测能力,也难以学习细胞变化背后的内在生物学规律。

2026年6月,《Nature Methods》刊发的一项研究显示:研究人员基于2220万个细胞的scTab语料库,预训练了400个模型,完成6400次评估。结果表明,在多项任务中,模型性能往往在使用约1%的预训练数据后便进入平台期。换言之,仅用约22万细胞训练模型性能就基本拉满,再多喂海量同质细胞样本,模型效果也不会明显提升。这让行业开始重新思考:现有技术路线是否还能持续受益于Scaling Law?或者说,问题究竟出在数据规模不足,还是第一代AIVC的建模范式已经触及瓶颈?

CellOS给出的答案是后者:真正限制模型持续提升的,并非Scaling Law本身,而是传统语言模型架构与细胞数据特性的系统性错配。只有让模型真正学习细胞状态演化规律,而不仅仅是静态表达模式,数据规模扩展才能持续转化为模型能力的提升。

从“看懂”到“理解”细胞,CellOS的“三板斧”

李飞飞在其最新长文中指出:“世界不是由文字构成的。”而细胞世界,更不由文字定义。AIVC领域需要的是AI对细胞状态有理解,而非单纯的表达模式复现。只有这样的模型,才能支撑动态预测(如扰动响应)和可迁移的虚拟细胞能力。

从行业角度看,CellOS这次采用了一条不同寻常的路径。它没有选择大多数团队仍在坚持的“安全路线”——继续在大语言模型上卷参数、卷数据,而是直接采用JEPA架构,这条路径难度更高但潜在天花板也更高。人工智能领域的普遍共识是:「世界模型」最擅长感知规律、推演环境动态变化。在自动驾驶、机器人领域,世界模型已被用来预测环境变化。现在,细胞领域也尝试这一路径,而CellOS是第一个“吃螃蟹”的。

CellOS是率先将世界模型理念引入AI虚拟细胞领域的模型。同时,它也是目前公开信息中规模最大的单细胞Foundation Model,基于3.905亿个人类单细胞转录组数据训练的12B参数模型,几乎覆盖所有已知人类细胞类型。

img_6a49a322caeaf32.webp

CellOS核心创新有三点:多视角表征学习、JEPA联合嵌入预测、无损扩容。下面逐一分析。

创新一:多视角表征学习

这一创新让模型在进入更复杂的训练阶段前,先获得更丰富、更敏锐的细胞特征辨别能力。传统单细胞基础模型通常只依赖单一的“表达视角”,即根据基因在单个细胞中的表达丰度来判断细胞状态。这种方式容易忽略那些表达量不高、但在生物学上具有重要标志意义的基因(如调控基因、应激响应基因),导致关键信号易被背景噪声淹没。

因此,CellOS引入「双视角互补机制」,在表达视角之外,增加群体感知视角。相当于给模型装了两双「眼睛」:

img_6a49a322d66c733.webp

  1. 一双眼睛看表达丰度(即这个基因活跃程度如何)。
  2. 另一双眼睛看群体特异性(这个基因在整个细胞群体里有多特别、有多少信息量)。

将这两个维度拆开并同时并行分析后,模型能够更轻易地抓住那些隐藏的重要生物学信号。结果是模型对细胞状态变化的敏感度大幅提升,并为第二层创新打下基础。

创新二:引入JEPA架构

在创新一(双视角)为模型提供高质量的互补表征后,CellOS引入JEPA(联合嵌入预测架构),在隐空间利用这些互补表征进行跨视角预测和对齐。传统模型的训练方式是:给定一个细胞的基因表达数据,模型尽力将其“原样复述”出来。这类似于让学生死记硬背课文,容易只记住表面文字,却不懂背后的意思。

CellOS引入JEPA,彻底改变了训练方式:它不再让模型简单复述输入,而是让模型用“一种视角”去预测“另一种视角”看到的结果。

img_6a49a322df13b34.webp

简言之,这迫使模型在脑海中建立一个“细胞状态的内在模型”,去抓住那些真正稳定的生物学规律。例如,传统模型关注的是“这个细胞现在长什么样”;而JEPA则在学习“如果从不同角度看这个细胞,它的状态本质是什么?如果发生变化,它会往哪个方向走?”这一创新直接推动模型能力从“看懂表面”升级到“理解本质”。特别是在预测“敲除某个基因细胞会怎样”“加药物后细胞如何反应”这类动态问题上,效果提升非常明显。

创新三:无损扩容训练方案

模型越大通常越智能,但存在一个关键问题:参数增加后,模型经常会把以前学到的东西忘掉,业内称之为「灾难性遗忘」。CellOS在这一点上采用了特别的设计——无损扩容机制。具体做法是:先训练一个“中小型”稠密模型,打牢基础;然后用一种平滑的方式,将其升级为超级大的MoE模型(混合专家模型)。在升级过程中,保留原来学到的核心知识,同时新增众多“专家”去学习更复杂的内容。这样一来,模型既能变得更大、更强,又不会把之前辛苦学会的细胞表达规律忘掉。

这三大创新并非各自为政,而是环环相扣。双视角是基础,负责提供“好原料”;JEPA架构是核心,负责“深度思考”;无损扩容是保障,确保模型变大后性能“不掉链子”。

img_6a49a322ec90335.webp

关于模型训练方案,模型搭好后该如何训练?CellOS提出Dense-to-MoE三阶段训练策略。它将上述创新拆分为三个循序渐进的阶段,而非一次性融入训练。

  1. 第一阶段(Dense):先用传统的“表达视角”,训练一个扎实的中小型稠密模型。
  2. 第二阶段(MoE):模型基础打好后,开始扩容,将模型平稳扩容到12B参数规模。
  3. 第三阶段(多视角联合训练):等模型长大后,再加入第二套“群体感知视角”,同时开启JEPA对齐训练。

这种分阶段训练设计非常务实,既降低了训练风险,又让每一层创新都能在最合适的时机发挥最大作用。在三层创新结合三阶段训练的加持下,多基准测试显示,在细胞状态注释和扰动响应预测任务上,CellOS达到SOTA水平。

img_6a49a323070a336.webp

在衡量细胞状态预测能力的核心指标Pearson_edist上,CellOS取得0.619的成绩,不仅位列所有模型第一,也是唯一突破0.6的模型。相比目前表现最好的开源模型TranscriptFormer(0.373),拉开66%的性能差距。另外,在细胞状态注释任务中,它在聚合注释基准上取得了0.792的生物学保守分数,全面超越UCE、scGPT、TranscriptFormer等主流单细胞基础模型。

CellOS不仅是一个新的大模型,更代表一种研究范式的升级。它让AI从“看懂细胞表达”走向“理解细胞状态”,这种转变为虚拟细胞的实际应用奠定了坚实基础。

全球竞速,AIVC迎来爆发前夜

过去两年,AIVC已经从概念验证进入技术竞速阶段。2025年6月,知名研究机构发起虚拟细胞挑战赛(Virtual Cell Challenge,简称VCC),集齐了多家赞助方并获得顶级期刊支持。这场被称为细胞版的“图灵测试”的比赛吸引了全球五百余支团队参赛,华人科学家团队强势霸榜。其中,预赛全球第一、决赛全能榜全球第二且国内第一的团队核心成员,正是本次发布CellOS的研发团队。

img_6a49a32310bb037.webp

比技术竞速更激烈的,还有资本方和产业界的较量。例如,成立仅1年的某公司单轮融资10亿美元,创下了当年全球医疗健康领域最大的单笔融资纪录。2024年前后,多家生物科技公司陆续获得知名机构投资。

img_6a49a3231b22c38.webp

△图片由AI生成

大型制药巨头也相继向AIVC公司抛出业务合作的橄榄枝。宏观来看,监管层面也在发生变化:美国FDA持续推动New Approach Methodologies(NAMs),鼓励采用计算模型、类器官、器官芯片等新方法补充甚至替代部分动物实验;欧洲、中国等监管机构开始加强AI辅助药物研发相关研究,为数字化研发提供更明确的发展方向;国内也已将“细胞编程与调控”“先进组学研究”“生命工程设计软件工具”列为前沿攻关方向。

微观来看,随着AI虚拟细胞赛道持续升温,全球入局者快速增加,并逐渐分化出三类核心玩家:第一类,以科研机构为代表的基础研究团队,主要推动算法创新和公开Benchmark建设,例如STATE、AlphaCell等模型,为行业建立统一评价体系和开放生态。第二类,以平台型创业公司为代表,这些企业通常拥有专有数据、湿实验平台以及药企合作能力,希望构建覆盖数据、模型和实验验证的完整研发平台。第三类,以AI制药公司为代表,它们更关注AI如何直接进入药物研发流程,通过长期合作、自研管线和平台授权实现商业化。

img_6a49a3232a47439.webp

△图片由AI生成

要在喧闹中持续保持敏锐和领先,就需要关注长期价值的复利,而非短期热点的狂欢。观察近年来获得较大融资、商业合作的平台公司可以发现,它们几乎都具有共同特点:不仅拥有AI模型,更拥有持续积累数据和验证模型的实验体系。行业对AIVC的期待已经不只是一个算法,而是希望其成为连接AI、生物数据、实验平台和药物研发的新型基础设施。大家开始关注:谁拥有持续产生高质量数据的能力?谁能够形成“模型—实验—数据”持续迭代的闭环?谁真正进入了药物研发决策流程?这些能力往往比单一模型性能更难建立,也更难复制。

值得关注的是,在这一轮AI虚拟细胞竞赛中,中国团队开始逐渐从“跟随者”转向“规则参与者”。过去几年,全球AI制药领域的重要创新主要集中于欧美。从AlphaFold到生成式分子模型,再到虚拟细胞,国际头部机构率先完成了基础设施布局。但随着国内单细胞组学、生物计算以及大模型技术不断发展,一批中国原生AI生物科技公司开始强势进入这一赛道。例如,CellOS背后的研发团队已经搭建了覆盖单细胞数据处理、高通量扰动实验和AI模型训练的技术体系,构建“数据—模型—实验”持续迭代的研发闭环。这一路线与海外头部平台公司不谋而合。

img_6a49a3233c285310.webp

该研发团队目前布局了管线资产和模型服务两大应用落地方向,前者延展到细胞治疗、工程细胞,后者涵盖靶点发现、虚拟药筛及虚拟临床全周期。

尽管行业发展迅速,但AIVC仍处于产业早期,面临四大挑战。一是高质量扰动数据仍然稀缺。相比互联网行业拥有海量文本数据,生命科学的数据获取成本极高。二是多模态融合仍有待突破。目前多数模型主要依赖单细胞转录组数据,而真实生命活动同时涉及蛋白组、空间组学、代谢组、细胞形态等多个层面。三是模型可解释性仍需提升。对于科研人员而言,预测结果是否正确固然重要,但更重要的是模型能否解释其背后的生物学机制,是否能够提出可验证的新假设。四是商业价值仍需持续验证。目前,大多数AI虚拟细胞企业仍以平台合作、联合研发或技术服务作为主要商业模式。未来,只有真正帮助药企大幅缩短研发周期、降低研发成本、提高临床成功率,AI虚拟细胞才能成为新药研发不可或缺的基础设施。

对于整个生命科学产业而言,这场围绕AIVC商业化落地的竞赛才刚刚开始。世界模型的应用已从自动驾驶拓展到细胞研究领域,而最值得建模的那个「世界」,或许就藏在人体内约36万亿个细胞中。这一技术范式升级,有望推动药物研发进入全新阶段。