“具身智能小镇”来了:机器人逛超市买菜满街跑:AI充当NPC:来自上海AI Lab
一个超级逼真的仿真机器人小镇现已公开亮相。在这个虚拟城镇中,机器人能够像真实人类一样完成日常行为,在超市内自由选购商品:

购物结束后它们还能返回家中准备饭菜:

在办公室里,机器人甚至能与人类同事一同接咖啡:

除了人形机器人,机械狗以及臂式机器人都能在这个“城镇”中顺畅穿行。

这便是首次亮相的交互式模拟3D世界,名为GRUtopia(中文名:桃源)。
在此虚拟天地中,多达10万个具备交互功能且带有精细注释的场景能够自由组合,形成一个逼真的城市环境。
环境涵盖了室内外空间,包括餐厅、超市、办公室及家庭等89种不同的场景类别。

由大模型驱动的NPC角色能够在这个世界内与机器人进行对话和交互。

通过这种设定,各类机器人能够在虚拟小镇中执行丰富多彩的行为模拟,这顺应了当前流行的Sim2Real技术路线,极大降低了具身智能在真实世界收集数据的难度和成本。
该项目已计划开源,目前GitHub上提供了demo的安装指南。
成功安装后,用户可以在demo中控制一个人形机器人在房间内自由活动,并且支持切换不同的观察视角。

机器人的虚拟桃源
其核心研究共包含三项关键工作:
GRScenes
GRResidents
GRBench
其中,GRScenes是一个包含海量场景数据的大规模数据集。
该数据集极大地扩展了机器人能够活动与操作的环境范围,与此前更多聚焦在家庭场景的工作相比,这是一种突破。
研究者指出,他们的目标是将通用机器人的能力延伸至更多服务场景,例如超市和医院等。同时覆盖室内外环境,包括游乐场、博物馆与展览馆。
针对每个场景,团队都进行了精细的高质量建模,100个场景内包含来自96个类别的2956个可交互物体以及22001个非交互物体。

GRResidents则是一个NPC系统。
该系统由大模型驱动,同时掌握了模拟环境中场景的详细信息。因此,NPC能够推断出物体之间的空间关系,参与动态对话并分配任务。
借助该系统的支持,GRUtopia能够生成海量的场景任务供机器人完成。

经过与人类的交叉验证,NPC系统在描述和定位物体方面的准确率表现良好。
在描述实验中,NPC系统随机选择一个物体进行描述,人类只要能够成功找到该物体即认可为成功。
定位实验则反之,如果NPC系统能根据人类给出的描述顺利找到相应物体,即算成功。

不同大模型在调用时的成功率有所差异,综合来看,GPT-4o的效果最为突出。

GRBench则是一个用于评估具身智能表现的基准测试。
该测试包含三个基准,分别涉及目标定位导航、社交定位导航以及定位操作,这三种评估的难度呈现逐步递增的趋势。

为了深入分析NPC和控制API的性能,研究者提出了基于LLM和VLM的基线,以验证基准设计的合理性与有效性。

实验结果显示,与随机策略相比,在所有基准测试中,使用大型模型作为后端代理的表现均更为出色。
此外,Qwen-VL在对话表现上甚至超越了GPT-4o。

整体对比来看,GRUtopia平台在各个方面均展现出比其它平台更为强大的性能。

该研究工作由OpenRobot Lab主导推进。
该实验室致力于研究具身通用人工智能,旨在构建软硬件与虚实一体化相结合的通用机器人算法体系。
今年5月,该团队还发布了具身多模态大模型Grounded 3D-LLM,该模型能够自动生成物体到局部区域的场景描述与具身对话数据,有效缓解了当前三维场景理解所面临的局限性。

论文地址
https://arxiv.org/abs/2407.10943
GitHub地址
https://github.com/openrobotlab/grutopia?tab=readme-ov-file