要約
この研究では、空間計画とナビゲーションのための自然言語インターフェイスが交差する問題に対処する大規模言語モデル (LLM) の能力を調査します。
私たちは、ロボット工学でよく見られる従来の明示的な手順指示よりも、より自然な会話に近い複雑な指示に従うことに重点を置いています。
ナビゲーション ディレクティブが単純な命令コマンド (例: 「冷蔵庫に行く」) として提供されている従来の研究のほとんどとは異なり、会話の対話を通じて取得された暗黙的なディレクティブを調べます。3D シミュレーター AI2Thor を活用して、家庭用のクエリ シナリオを大規模に作成し、それを拡張します。
40 種類のオブジェクトに対する複雑な言語クエリを追加します。
私たちのメソッド CARTIER (ロボットの命令実行をターゲットとした地図言語推論) を使用するロボットは、LLM の機能を利用して、ユーザー対話を解釈することで、既存の LLM 対応メソッドよりも最大 42% 高い信頼性で記述言語クエリを解析できることを実証します。
シナリオ内のオブジェクトのコンテキスト。
要約(オリジナル)
This work explores the capacity of large language models (LLMs) to address problems at the intersection of spatial planning and natural language interfaces for navigation. We focus on following complex instructions that are more akin to natural conversation than traditional explicit procedural directives typically seen in robotics. Unlike most prior work where navigation directives are provided as simple imperative commands (e.g., ‘go to the fridge’), we examine implicit directives obtained through conversational interactions.We leverage the 3D simulator AI2Thor to create household query scenarios at scale, and augment it by adding complex language queries for 40 object types. We demonstrate that a robot using our method CARTIER (Cartographic lAnguage Reasoning Targeted at Instruction Execution for Robots) can parse descriptive language queries up to 42% more reliably than existing LLM-enabled methods by exploiting the ability of LLMs to interpret the user interaction in the context of the objects in the scenario.
arxiv情報
| 著者 | Dmitriy Rivkin,Nikhil Kakodkar,Francois Hogan,Bobak H. Baghi,Gregory Dudek |
| 発行日 | 2024-02-01 16:32:38+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google