要約
大規模言語モデル (LLM) の最近の進歩により、現実のオープンワールド環境におけるロボット計画の刺激的な進歩が促進されています。
3D シーン グラフ (3DSG) は、コンパクトで意味的に豊富なため、LLM ベースのプランナーの基礎となる有望な環境表現を提供します。
ただし、ロボットの環境が拡大し (例: 追跡されるエンティティの数)、シーン グラフ情報の複雑さが増す (例: より多くの属性を維持する) と、LLM ベースのプランナーに 3DSG をそのまま提供することは、入力トークンのせいですぐに実行不可能になります。
LLM に存在するカウント制限と注意バイアス。
LLM の質問と回答のためにクエリ関連の文書チャンクを取得する検索拡張生成 (RAG) メソッドの成功に触発され、私たちはそのパラダイムを身体化されたドメインに適応させました。
具体的には、自然言語ロボット タスクを実行するために LLM ベースのプランナーを強化する、EmbodiedRAG と呼ばれる 3D シーン サブグラフ取得フレームワークを提案します。
特に、取得したサブグラフは、ロボットが計画を実行する際の環境の変化やタスクの関連性の変化に適応します。
シングルアームのモバイルマニピュレーターを使用して AI2Thor でシミュレートされた家事の成功率を向上させながら、入力トークン数 (1 桁単位) と計画時間 (計画ステップあたりの平均時間を最大 70% 削減) を大幅に削減する EmbodiedRAG の能力を実証します。
。
さらに、実際の環境におけるエッジでのロボット導入のパフォーマンス上の利点を強調するために、マニピュレーターを備えた四足歩行器に EmbodiedRAG を実装します。
要約(オリジナル)
Recent advances in Large Language Models (LLMs) have helped facilitate exciting progress for robotic planning in real, open-world environments. 3D scene graphs (3DSGs) offer a promising environment representation for grounding such LLM-based planners as they are compact and semantically rich. However, as the robot’s environment scales (e.g., number of entities tracked) and the complexity of scene graph information increases (e.g., maintaining more attributes), providing the 3DSG as-is to an LLM-based planner quickly becomes infeasible due to input token count limits and attentional biases present in LLMs. Inspired by the successes of Retrieval-Augmented Generation (RAG) methods that retrieve query-relevant document chunks for LLM question and answering, we adapt the paradigm for our embodied domain. Specifically, we propose a 3D scene subgraph retrieval framework, called EmbodiedRAG, that we augment an LLM-based planner with for executing natural language robotic tasks. Notably, our retrieved subgraphs adapt to changes in the environment as well as changes in task-relevancy as the robot executes its plan. We demonstrate EmbodiedRAG’s ability to significantly reduce input token counts (by an order of magnitude) and planning time (up to 70% reduction in average time per planning step) while improving success rates on AI2Thor simulated household tasks with a single-arm, mobile manipulator. Additionally, we implement EmbodiedRAG on a quadruped with a manipulator to highlight the performance benefits for robot deployment at the edge in real environments.
arxiv情報
著者 | Meghan Booker,Grayson Byrd,Bethany Kemp,Aurora Schmidt,Corban Rivera |
発行日 | 2024-10-31 14:22:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google