阿里开源视觉大模型Qwen2-VL:可理解20分钟长视频 性能比肩GPT-4o

时间:2026-07-03 08:46:49 来源:互联网

12月3日,新一代视觉语言模型Qwen2-VL正式开源,其最大规模版本在性能上超越GPT-4o等闭源模型,并全面开放三种大小等级的模型。

根据官方博客文章,Qwen2-VL基于Qwen2构建,相比于第一代Qwen-VL,具备以下显著特点:

1、能读懂不同分辨率和不同长宽比的图片:Qwen2-VL在多个视觉理解基准测试中取得全球领先表现,这些测试包括MathVista(数学推理能力)、DocVQA(文档图像理解)、RealWorldQA(真实世界空间理解)以及MTVQA(多语言理解能力)。

2、能理解20分钟以上的长视频:Qwen2-VL可以解析长视频内容,并将其应用于视频问答、对话及内容创作等场景。

3、能够操作手机和机器人的视觉智能体:依托复杂推理与决策能力,Qwen2-VL可集成至手机、机器人等设备,根据视觉环境和文字指令自动执行操作。

4、多语言支持:除英语和中文外,Qwen2-VL现在还能理解图像中的多语言文本,涵盖大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

通义千问团队以Apache 2.0协议开源了Qwen2-VL-2B和Qwen2-VL-7B,并同时发布了Qwen2-VL-72B的API。相关开源代码已集成到Hugging Face Transformers、vLLM以及其他第三方框架中。

img_6a47067825c7a30.webp

一、媲美GPT-4o!多个指标刷新最优表现,三种规模模型开源

通义千问团队从六个维度评估了Qwen2-VL在72B、7B、2B三种规模上的视觉能力,包括复杂大学水平问题解决、数学能力、文档和表格理解、多语言文本图像理解、通用场景问答、视频理解以及视觉智能代理(Visual AI Agent)能力。

总体来看,Qwen2-VL-72B在大多数指标上均达到最优水平,甚至超越了GPT-4o和Claude 3.5 Sonnet等闭源模型。

具体而言,该模型在文档理解方面表现突出,仅在复杂大学水平问题解决上与GPT-4o存在差距。同时,Qwen2-VL 72B也刷新了开源多模态模型的最佳纪录。

img_6a47067834c2131.webp

▲Qwen2-VL-72B模型能力分数对比(图源:通义千问团队官方博客文章)

在7B规模上,Qwen2-VL同样支持单图、多图及视频输入,在保持经济规模的同时,实现了具备竞争力的性能表现。

例如,Qwen2-VL-7B在DocVQA(文档理解能力)和MTVQA(多语言文本图片理解能力)两项基准测试中均达到SOTA水平。在AI领域,SOTA模型通常指在特定任务或数据集上性能最优的模型。

img_6a4706784afd132.webp

▲Qwen2-VL-7B模型能力分数对比(图源:通义千问团队官方博客文章)

此外,通义千问团队还提供了一个更小的2B模型,以支持移动端的丰富应用。Qwen2-VL-2B具备完整的图像、视频及多语言理解能力,在视频文档和通用场景问答方面,相比同规模模型具有明显优势。

img_6a4706785aaab33.webp

▲Qwen2-VL-2B模型能力分数对比(图源:通义千问团队官方博客文章)

二、手写字体、公式代码、网页截屏、视频影像……多场景识别理解不在话下

在官方博客文章列举的多个模型能力案例中,Qwen2-VL覆盖了广阔的应用场景:能够识别手写文字与图中文字,转写数学公式及多种语言文字,解答数学几何题和LeetCode编程题,读懂不同分辨率和长宽比的图片,以特定格式输出答案,并对视频内容进行总结与解读。

1、准确识别图中文字,轻松转写数学公式

对于下图中的手写文字和图像内嵌文字,Qwen2-VL能准确识别对应的语种与文字内容(图中涉及葡萄牙语和中文)。针对右下角图片,Qwen2-VL不仅能识别数字,还能判断每个数字对应盒子的颜色。

img_6a4706786b31a34.webp

▲Qwen2-VL能够准确识别图中文字(图源:通义千问团队官方博客文章)

对于下图左半部分包含的复杂数学公式,Qwen2-VL可以轻松用Markdown格式转写。对于右半部分涉及的中文、日语、韩语、西班牙语、葡萄牙语、爱尔兰语、英语、德语、波兰语、希腊语、越南语、蒙古语、俄语、印地语、斯瓦希里语,Qwen2-VL也能一字不漏地转录出来。

img_6a4706788429735.webp

▲Qwen2-VL能够准确转录图中复杂公式及多语种(图源:通义千问团队官方博客文章)

2、理解现实世界信息,准确输出问题答案

针对数学平面几何题目、LeetCode编程题目以及1792×14400尺寸的技术文档截图,Qwen2-VL同样能识别理解并回答用户提问。

img_6a470678b4be436.webp

▲Qwen2-VL能够解决多种问题(图源:通义千问团队官方博客文章)

此外,Qwen2-VL还能从天气预报软件截屏、网页搜索结果截屏及Linux官方档案库截屏中抓取用户所需信息,并以特定格式(如表格、段落编号方式或JSON格式数组)输出。

img_6a470678c750437.webp

▲Qwen2-VL回答支持多种输出格式(图源:通义千问团队官方博客文章)

3、总结视频要点,解读视频内容

除了静态图像,Qwen2-VL还能进行视频内容分析。它可以总结视频要点、即时回答相关问题,并维持连贯对话,帮助用户从视频中提取有价值信息。

例如下图中,用户上传了一段2分57秒的视频,要求Qwen2-VL进行描述,结果描述非常详细且准确。当用户进一步询问视频中人物所穿衣服的颜色时,Qwen2-VL也给出了符合视频内容的回答。

img_6a470678da4d938.webp

▲Qwen2-VL能够识别视频并围绕视频回答相关问题(图源:通义千问团队官方博客文章)

三、实时数据检索+实时环境交互,或将碰撞出更多可能性

据官方博客文章介绍,Qwen2-VL在作为视觉代理方面展现出潜力,能够初步利用视觉能力实现自动化工具调用与交互。

视觉代理(Visual Agent)通常指一类AI系统,它可以处理并理解视觉信息(如图像或视频),并在此基础上进行决策或执行任务。

Qwen2-VL支持函数调用,使其能够利用外部工具进行实时数据检索,例如航班状态查询、天气预报获取以及包裹追踪。

img_6a4706790122839.webp

▲Qwen2-VL根据用户提供的航班信息调用“weather_hour24”工具查询天气状况(图源:通义千问团队官方博客文章)

通义千问团队还进行了一些初步探索,让模型能够更像人一样与环境交互。“这使得Qwen2-VL不仅作为观察者,而是有代替人做更多执行者的可能。”官方博客文章写道。

伴随视觉语言模型能力的跃升,模型竞争已从单一文本扩展到多模态维度。能够同时理解图像、视频和文字信息的模型,正在成为推动AI走向更广泛应用的关键力量。