CARTIER: Cartographic lAnguage Reasoning Targeted at Instruction Execution for Robots

要約

この研究では、空間計画とナビゲーションのための自然言語インターフェイスが交差する問題に対処するための大規模言語モデル (LLM) の能力を調査します。私たちの焦点は、従来の明示的な手続き上の指示よりも自然な会話に近い、比較的複雑な指示に従うことにあります。
ロボット工学。
ナビゲーション ディレクティブが命令型コマンド (冷蔵庫に行くなど) として提供されているこれまでの研究のほとんどとは異なり、会話型対話内の暗黙的なディレクティブを調べます。
3D シミュレーター AI2Thor を活用して、複雑で再現可能なシナリオを大規模に作成し、40 種類のオブジェクトに対する複雑な言語クエリを追加してシナリオを強化します。
LLM を使用してシーン内のオブジェクトのリストのコンテキストでユーザー インタラクションを解釈することにより、ロボットが既存の方法よりも記述言語クエリをより適切に解析できることを実証します。

要約(オリジナル)

This work explores the capacity of large language models (LLMs) to address problems at the intersection of spatial planning and natural language interfaces for navigation.Our focus is on following relatively complex instructions that are more akin to natural conversation than traditional explicit procedural directives seen in robotics. Unlike most prior work, where navigation directives are provided as imperative commands (e.g., go to the fridge), we examine implicit directives within conversational interactions. We leverage the 3D simulator AI2Thor to create complex and repeatable scenarios at scale, and augment it by adding complex language queries for 40 object types. We demonstrate that a robot can better parse descriptive language queries than existing methods by using an LLM to interpret the user interaction in the context of a list of the objects in the scene.

arxiv情報

著者 Dmitriy Rivkin,Nikhil Kakodkar,Francois Hogan,Bobak H. Baghi,Gregory Dudek
発行日 2023-10-06 15:41:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO パーマリンク