“具身智能小镇”来了：机器人逛超市买菜满街跑：AI充当NPC：来自上海AI Lab

时间：2026-07-05 08:45:42 来源：互联网

一个超级逼真的仿真机器人小镇现已公开亮相。在这个虚拟城镇中，机器人能够像真实人类一样完成日常行为，在超市内自由选购商品：

购物结束后它们还能返回家中准备饭菜：

在办公室里，机器人甚至能与人类同事一同接咖啡：

除了人形机器人，机械狗以及臂式机器人都能在这个“城镇”中顺畅穿行。

这便是首次亮相的交互式模拟3D世界，名为GRUtopia（中文名：桃源）。

在此虚拟天地中，多达10万个具备交互功能且带有精细注释的场景能够自由组合，形成一个逼真的城市环境。

环境涵盖了室内外空间，包括餐厅、超市、办公室及家庭等89种不同的场景类别。

由大模型驱动的NPC角色能够在这个世界内与机器人进行对话和交互。

通过这种设定，各类机器人能够在虚拟小镇中执行丰富多彩的行为模拟，这顺应了当前流行的Sim2Real技术路线，极大降低了具身智能在真实世界收集数据的难度和成本。

该项目已计划开源，目前GitHub上提供了demo的安装指南。

成功安装后，用户可以在demo中控制一个人形机器人在房间内自由活动，并且支持切换不同的观察视角。

机器人的虚拟桃源

其核心研究共包含三项关键工作：

GRScenes

GRResidents

GRBench

其中，GRScenes是一个包含海量场景数据的大规模数据集。

该数据集极大地扩展了机器人能够活动与操作的环境范围，与此前更多聚焦在家庭场景的工作相比，这是一种突破。

研究者指出，他们的目标是将通用机器人的能力延伸至更多服务场景，例如超市和医院等。同时覆盖室内外环境，包括游乐场、博物馆与展览馆。

针对每个场景，团队都进行了精细的高质量建模，100个场景内包含来自96个类别的2956个可交互物体以及22001个非交互物体。

GRResidents则是一个NPC系统。

该系统由大模型驱动，同时掌握了模拟环境中场景的详细信息。因此，NPC能够推断出物体之间的空间关系，参与动态对话并分配任务。

借助该系统的支持，GRUtopia能够生成海量的场景任务供机器人完成。

经过与人类的交叉验证，NPC系统在描述和定位物体方面的准确率表现良好。

在描述实验中，NPC系统随机选择一个物体进行描述，人类只要能够成功找到该物体即认可为成功。

定位实验则反之，如果NPC系统能根据人类给出的描述顺利找到相应物体，即算成功。

不同大模型在调用时的成功率有所差异，综合来看，GPT-4o的效果最为突出。

GRBench则是一个用于评估具身智能表现的基准测试。

该测试包含三个基准，分别涉及目标定位导航、社交定位导航以及定位操作，这三种评估的难度呈现逐步递增的趋势。

为了深入分析NPC和控制API的性能，研究者提出了基于LLM和VLM的基线，以验证基准设计的合理性与有效性。

实验结果显示，与随机策略相比，在所有基准测试中，使用大型模型作为后端代理的表现均更为出色。

此外，Qwen-VL在对话表现上甚至超越了GPT-4o。

整体对比来看，GRUtopia平台在各个方面均展现出比其它平台更为强大的性能。

该研究工作由OpenRobot Lab主导推进。

该实验室致力于研究具身通用人工智能，旨在构建软硬件与虚实一体化相结合的通用机器人算法体系。

今年5月，该团队还发布了具身多模态大模型Grounded 3D-LLM，该模型能够自动生成物体到局部区域的场景描述与具身对话数据，有效缓解了当前三维场景理解所面临的局限性。

https://arxiv.org/abs/2407.10943

https://github.com/openrobotlab/grutopia?tab=readme-ov-file