“具身智能小镇”来了:机器人逛超市买菜满街跑:AI充当NPC:来自上海AI Lab

时间:2026-07-05 08:45:42 来源:互联网

一个超级逼真的仿真机器人小镇现已公开亮相。在这个虚拟城镇中,机器人能够像真实人类一样完成日常行为,在超市内自由选购商品:

img_6a49a935232f630.webp

购物结束后它们还能返回家中准备饭菜:

img_6a49a935360fa31.webp

在办公室里,机器人甚至能与人类同事一同接咖啡:

img_6a49a9354158732.webp

除了人形机器人,机械狗以及臂式机器人都能在这个“城镇”中顺畅穿行。

img_6a49a9355311133.webp

这便是首次亮相的交互式模拟3D世界,名为GRUtopia(中文名:桃源)。

在此虚拟天地中,多达10万个具备交互功能且带有精细注释的场景能够自由组合,形成一个逼真的城市环境。

环境涵盖了室内外空间,包括餐厅、超市、办公室及家庭等89种不同的场景类别。

img_6a49a9355ee2134.webp

由大模型驱动的NPC角色能够在这个世界内与机器人进行对话和交互。

img_6a49a9356df0c35.webp

通过这种设定,各类机器人能够在虚拟小镇中执行丰富多彩的行为模拟,这顺应了当前流行的Sim2Real技术路线,极大降低了具身智能在真实世界收集数据的难度和成本。

该项目已计划开源,目前GitHub上提供了demo的安装指南。

成功安装后,用户可以在demo中控制一个人形机器人在房间内自由活动,并且支持切换不同的观察视角。

img_6a49a9358d70f36.webp

机器人的虚拟桃源

其核心研究共包含三项关键工作:

GRScenes

GRResidents

GRBench

其中,GRScenes是一个包含海量场景数据的大规模数据集。

该数据集极大地扩展了机器人能够活动与操作的环境范围,与此前更多聚焦在家庭场景的工作相比,这是一种突破。

研究者指出,他们的目标是将通用机器人的能力延伸至更多服务场景,例如超市和医院等。同时覆盖室内外环境,包括游乐场、博物馆与展览馆。

针对每个场景,团队都进行了精细的高质量建模,100个场景内包含来自96个类别的2956个可交互物体以及22001个非交互物体。

img_6a49a9359dca337.webp

GRResidents则是一个NPC系统。

该系统由大模型驱动,同时掌握了模拟环境中场景的详细信息。因此,NPC能够推断出物体之间的空间关系,参与动态对话并分配任务。

借助该系统的支持,GRUtopia能够生成海量的场景任务供机器人完成。

img_6a49a935add0238.webp

经过与人类的交叉验证,NPC系统在描述和定位物体方面的准确率表现良好。

在描述实验中,NPC系统随机选择一个物体进行描述,人类只要能够成功找到该物体即认可为成功。

定位实验则反之,如果NPC系统能根据人类给出的描述顺利找到相应物体,即算成功。

img_6a49a935c3f1e39.webp

不同大模型在调用时的成功率有所差异,综合来看,GPT-4o的效果最为突出。

img_6a49a935d367a310.webp

GRBench则是一个用于评估具身智能表现的基准测试。

该测试包含三个基准,分别涉及目标定位导航、社交定位导航以及定位操作,这三种评估的难度呈现逐步递增的趋势。

img_6a49a935dd282311.webp

为了深入分析NPC和控制API的性能,研究者提出了基于LLM和VLM的基线,以验证基准设计的合理性与有效性。

img_6a49a935ecea8312.webp

实验结果显示,与随机策略相比,在所有基准测试中,使用大型模型作为后端代理的表现均更为出色。

此外,Qwen-VL在对话表现上甚至超越了GPT-4o。

img_6a49a93607752313.webp

整体对比来看,GRUtopia平台在各个方面均展现出比其它平台更为强大的性能。

img_6a49a93624724314.webp

该研究工作由OpenRobot Lab主导推进。

该实验室致力于研究具身通用人工智能,旨在构建软硬件与虚实一体化相结合的通用机器人算法体系。

今年5月,该团队还发布了具身多模态大模型Grounded 3D-LLM,该模型能够自动生成物体到局部区域的场景描述与具身对话数据,有效缓解了当前三维场景理解所面临的局限性。

img_6a49a9363880c315.webp

论文地址

https://arxiv.org/abs/2407.10943

GitHub地址

https://github.com/openrobotlab/grutopia?tab=readme-ov-file