要約
ロボットが探索して学習できる量には制限がありませんが、その知識はすべて検索可能で、実行可能である必要があります。
言語研究では、検索拡張生成 (RAG) が大規模なノンパラメトリック知識の主力となっています。
しかし、既存の技術は、データが高度に相関しており、認識には抽象化が必要なマルチモーダルな具体化ドメインに直接移行することはできません。
これらの課題に対処するために、ナビゲーションと言語生成の両方のための階層的知識を自律的に構築できるノンパラメトリック メモリ システムを備えた身体化エージェントの基本モデルを強化するフレームワークである Embodied-RAG を導入します。
Embodied-RAG は、特定のオブジェクトであろうと、雰囲気の全体的な記述であろうと、さまざまな環境やクエリ タイプにわたって、あらゆる範囲の空間的および意味論的な解決を処理します。
Embodied-RAG のメモリの中核は、言語の記述をさまざまな詳細レベルで保存するセマンティック フォレストとして構造化されています。
この階層構造により、システムはさまざまなロボット プラットフォームにわたってコンテキスト依存の出力を効率的に生成できます。
私たちは、Embodied-RAG が RAG をロボティクス ドメインに効果的に橋渡しし、キロメートル レベルの環境全体で 250 を超える説明およびナビゲーション クエリを正常に処理することを実証し、体現型エージェントのための汎用ノンパラメトリック システムとしての期待を強調します。
要約(オリジナル)
There is no limit to how much a robot might explore and learn, but all of that knowledge needs to be searchable and actionable. Within language research, retrieval augmented generation (RAG) has become the workhorse of large-scale non-parametric knowledge; however, existing techniques do not directly transfer to the embodied domain, which is multimodal, where data is highly correlated, and perception requires abstraction. To address these challenges, we introduce Embodied-RAG, a framework that enhances the foundational model of an embodied agent with a non-parametric memory system capable of autonomously constructing hierarchical knowledge for both navigation and language generation. Embodied-RAG handles a full range of spatial and semantic resolutions across diverse environments and query types, whether for a specific object or a holistic description of ambiance. At its core, Embodied-RAG’s memory is structured as a semantic forest, storing language descriptions at varying levels of detail. This hierarchical organization allows the system to efficiently generate context-sensitive outputs across different robotic platforms. We demonstrate that Embodied-RAG effectively bridges RAG to the robotics domain, successfully handling over 250 explanation and navigation queries across kilometer-level environments, highlighting its promise as a general-purpose non-parametric system for embodied agents.
arxiv情報
著者 | Quanting Xie,So Yeon Min,Pengliang Ji,Yue Yang,Tianyi Zhang,Kedi Xu,Aarav Bajaj,Ruslan Salakhutdinov,Matthew Johnson-Roberson,Yonatan Bisk |
発行日 | 2025-01-21 02:38:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google