Tell Me Where to Go: A Composable Framework for Context-Aware Embodied Robot Navigation

要約

人間は、環境に関する事前の知識と説明のみに頼って、不慣れな環境をナビゲートする驚くべき能力を持っています。
ロボットが同じ種類のナビゲーションを実行するには、限られた量の事前知識で自然言語の記述を関連する物理環境に関連付けることができる必要があります。
最近、大規模言語モデル (LLM) は、数十億のパラメーターを推論し、マルチモーダルなチャットベースの自然言語応答にそれらを利用できるようになりました。
ただし、LLM には現実世界の認識が欠けており、その出力は常に予測可能であるとは限りません。
この研究では、Python コードの形式で LLM とロボット ナビゲーション フレームワークの間に中間層を作成することで、現実世界の一般化の欠如を解決する低帯域幅フレームワークである NavCom を開発します。
私たちの中間は、LLM モデルに固有の膨大な事前知識を、モバイル ロボットが理解できる一連の入出力 API 命令にシューホーンします。
モバイル ロボット上の 4 つの異なる環境とコマンド クラスにわたってメソッドを評価し、コンテキスト コマンドを解釈する NavCom の機能を強調します。

要約(オリジナル)

Humans have the remarkable ability to navigate through unfamiliar environments by solely relying on our prior knowledge and descriptions of the environment. For robots to perform the same type of navigation, they need to be able to associate natural language descriptions with their associated physical environment with a limited amount of prior knowledge. Recently, Large Language Models (LLMs) have been able to reason over billions of parameters and utilize them in multi-modal chat-based natural language responses. However, LLMs lack real-world awareness and their outputs are not always predictable. In this work, we develop NavCom, a low-bandwidth framework that solves this lack of real-world generalization by creating an intermediate layer between an LLM and a robot navigation framework in the form of Python code. Our intermediate shoehorns the vast prior knowledge inherent in an LLM model into a series of input and output API instructions that a mobile robot can understand. We evaluate our method across four different environments and command classes on a mobile robot and highlight our NavCom’s ability to interpret contextual commands.

arxiv情報

著者 Harel Biggie,Ajay Narasimha Mopidevi,Dusty Woods,Christoffer Heckman
発行日 2023-06-15 21:46:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク