阿里开源视觉大模型Qwen2-VL：可理解20分钟长视频性能比肩GPT-4o

时间：2026-07-03 08:46:49 来源：互联网

12月3日，新一代视觉语言模型Qwen2-VL正式开源，其最大规模版本在性能上超越GPT-4o等闭源模型，并全面开放三种大小等级的模型。

根据官方博客文章，Qwen2-VL基于Qwen2构建，相比于第一代Qwen-VL，具备以下显著特点：

1、能读懂不同分辨率和不同长宽比的图片：Qwen2-VL在多个视觉理解基准测试中取得全球领先表现，这些测试包括MathVista（数学推理能力）、DocVQA（文档图像理解）、RealWorldQA（真实世界空间理解）以及MTVQA（多语言理解能力）。

2、能理解20分钟以上的长视频：Qwen2-VL可以解析长视频内容，并将其应用于视频问答、对话及内容创作等场景。

3、能够操作手机和机器人的视觉智能体：依托复杂推理与决策能力，Qwen2-VL可集成至手机、机器人等设备，根据视觉环境和文字指令自动执行操作。

4、多语言支持：除英语和中文外，Qwen2-VL现在还能理解图像中的多语言文本，涵盖大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

通义千问团队以Apache 2.0协议开源了Qwen2-VL-2B和Qwen2-VL-7B，并同时发布了Qwen2-VL-72B的API。相关开源代码已集成到Hugging Face Transformers、vLLM以及其他第三方框架中。

一、媲美GPT-4o！多个指标刷新最优表现，三种规模模型开源

通义千问团队从六个维度评估了Qwen2-VL在72B、7B、2B三种规模上的视觉能力，包括复杂大学水平问题解决、数学能力、文档和表格理解、多语言文本图像理解、通用场景问答、视频理解以及视觉智能代理（Visual AI Agent）能力。

总体来看，Qwen2-VL-72B在大多数指标上均达到最优水平，甚至超越了GPT-4o和Claude 3.5 Sonnet等闭源模型。

具体而言，该模型在文档理解方面表现突出，仅在复杂大学水平问题解决上与GPT-4o存在差距。同时，Qwen2-VL 72B也刷新了开源多模态模型的最佳纪录。

▲Qwen2-VL-72B模型能力分数对比（图源：通义千问团队官方博客文章）

在7B规模上，Qwen2-VL同样支持单图、多图及视频输入，在保持经济规模的同时，实现了具备竞争力的性能表现。

例如，Qwen2-VL-7B在DocVQA（文档理解能力）和MTVQA（多语言文本图片理解能力）两项基准测试中均达到SOTA水平。在AI领域，SOTA模型通常指在特定任务或数据集上性能最优的模型。

▲Qwen2-VL-7B模型能力分数对比（图源：通义千问团队官方博客文章）

此外，通义千问团队还提供了一个更小的2B模型，以支持移动端的丰富应用。Qwen2-VL-2B具备完整的图像、视频及多语言理解能力，在视频文档和通用场景问答方面，相比同规模模型具有明显优势。

▲Qwen2-VL-2B模型能力分数对比（图源：通义千问团队官方博客文章）

二、手写字体、公式代码、网页截屏、视频影像……多场景识别理解不在话下

在官方博客文章列举的多个模型能力案例中，Qwen2-VL覆盖了广阔的应用场景：能够识别手写文字与图中文字，转写数学公式及多种语言文字，解答数学几何题和LeetCode编程题，读懂不同分辨率和长宽比的图片，以特定格式输出答案，并对视频内容进行总结与解读。

1、准确识别图中文字，轻松转写数学公式

对于下图中的手写文字和图像内嵌文字，Qwen2-VL能准确识别对应的语种与文字内容（图中涉及葡萄牙语和中文）。针对右下角图片，Qwen2-VL不仅能识别数字，还能判断每个数字对应盒子的颜色。

▲Qwen2-VL能够准确识别图中文字（图源：通义千问团队官方博客文章）

对于下图左半部分包含的复杂数学公式，Qwen2-VL可以轻松用Markdown格式转写。对于右半部分涉及的中文、日语、韩语、西班牙语、葡萄牙语、爱尔兰语、英语、德语、波兰语、希腊语、越南语、蒙古语、俄语、印地语、斯瓦希里语，Qwen2-VL也能一字不漏地转录出来。

▲Qwen2-VL能够准确转录图中复杂公式及多语种（图源：通义千问团队官方博客文章）

2、理解现实世界信息，准确输出问题答案

针对数学平面几何题目、LeetCode编程题目以及1792×14400尺寸的技术文档截图，Qwen2-VL同样能识别理解并回答用户提问。

▲Qwen2-VL能够解决多种问题（图源：通义千问团队官方博客文章）

此外，Qwen2-VL还能从天气预报软件截屏、网页搜索结果截屏及Linux官方档案库截屏中抓取用户所需信息，并以特定格式（如表格、段落编号方式或JSON格式数组）输出。

▲Qwen2-VL回答支持多种输出格式（图源：通义千问团队官方博客文章）

3、总结视频要点，解读视频内容

除了静态图像，Qwen2-VL还能进行视频内容分析。它可以总结视频要点、即时回答相关问题，并维持连贯对话，帮助用户从视频中提取有价值信息。

例如下图中，用户上传了一段2分57秒的视频，要求Qwen2-VL进行描述，结果描述非常详细且准确。当用户进一步询问视频中人物所穿衣服的颜色时，Qwen2-VL也给出了符合视频内容的回答。

▲Qwen2-VL能够识别视频并围绕视频回答相关问题（图源：通义千问团队官方博客文章）

三、实时数据检索+实时环境交互，或将碰撞出更多可能性

据官方博客文章介绍，Qwen2-VL在作为视觉代理方面展现出潜力，能够初步利用视觉能力实现自动化工具调用与交互。

视觉代理（Visual Agent）通常指一类AI系统，它可以处理并理解视觉信息（如图像或视频），并在此基础上进行决策或执行任务。

Qwen2-VL支持函数调用，使其能够利用外部工具进行实时数据检索，例如航班状态查询、天气预报获取以及包裹追踪。

▲Qwen2-VL根据用户提供的航班信息调用“weather_hour24”工具查询天气状况（图源：通义千问团队官方博客文章）

通义千问团队还进行了一些初步探索，让模型能够更像人一样与环境交互。“这使得Qwen2-VL不仅作为观察者，而是有代替人做更多执行者的可能。”官方博客文章写道。

伴随视觉语言模型能力的跃升，模型竞争已从单一文本扩展到多模态维度。能够同时理解图像、视频和文字信息的模型，正在成为推动AI走向更广泛应用的关键力量。

上一篇：百度系大牛创业：AI大模型翻涌汽车安全有了新型“防护罩” 下一篇：智谱AI的类GPT-4o让我看到了作业帮:小红书:下厨房的影子

阿里开源视觉大模型Qwen2-VL：可理解20分钟长视频 性能比肩GPT-4o