Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation

要約

ロボットが探索し学習する量に制限はないが、その知識はすべて検索可能で実用的である必要がある。しかし、既存の技術は、マルチモーダルであり、データの相関性が高く、知覚に抽象化が必要な具現化領域には直接適用できない。 これらの課題に対処するために、我々は、ナビゲーションと言語生成の両方のための階層的知識を自律的に構築することができるノンパラメトリック記憶システムを備えた具現化エージェントの基礎モデルを強化するフレームワークであるEmbodied-RAGを紹介する。Embodied-RAGは、特定のオブジェクトや雰囲気の全体的な記述など、多様な環境とクエリのタイプにわたって、あらゆる空間的および意味的な解像度を処理する。その中核となるEmbodied-RANGのメモリはセマンティック・フォレスト(意味の森)として構成され、さまざまな詳細レベルの言語記述を保存します。この階層的な構成により、システムは異なるロボットプラットフォーム間で文脈に応じた出力を効率的に生成することができる。我々は、Embodied-RAGがRAGをロボット工学の領域に効果的に橋渡しすることを実証し、19の環境において200以上の説明とナビゲーションのクエリを処理することに成功し、具現化されたエージェントのための汎用的なノンパラメトリックシステムとしての可能性を強調した。

要約(オリジナル)

There is no limit to how much a robot might explore and learn, but all of that knowledge needs to be searchable and actionable. Within language research, retrieval augmented generation (RAG) has become the workhouse of large-scale non-parametric knowledge, however existing techniques do not directly transfer to the embodied domain, which is multimodal, data is highly correlated, and perception requires abstraction. To address these challenges, we introduce Embodied-RAG, a framework that enhances the foundational model of an embodied agent with a non-parametric memory system capable of autonomously constructing hierarchical knowledge for both navigation and language generation. Embodied-RAG handles a full range of spatial and semantic resolutions across diverse environments and query types, whether for a specific object or a holistic description of ambiance. At its core, Embodied-RAG’s memory is structured as a semantic forest, storing language descriptions at varying levels of detail. This hierarchical organization allows the system to efficiently generate context-sensitive outputs across different robotic platforms. We demonstrate that Embodied-RAG effectively bridges RAG to the robotics domain, successfully handling over 200 explanation and navigation queries across 19 environments, highlighting its promise for general-purpose non-parametric system for embodied agents.

arxiv情報

著者 Quanting Xie,So Yeon Min,Tianyi Zhang,Aarav Bajaj,Ruslan Salakhutdinov,Matthew Johnson-Roberson,Yonatan Bisk
発行日 2024-10-03 15:17:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク