Natural Language as Polices: Reasoning for Coordinate-Level Embodied Control with LLMs

要約

ロボットの行動計画の問題に対処する LLM を使用した実験結果を示します。
最近、LLM は、特に複雑な高レベルの命令を中レベルのポリシー コードに変換するコード生成アプローチを使用して、ロボットのアクション計画に適用されています。
これに対し、我々のアプローチでは、タスクやシーンオブジェクトのテキスト記述を取得し、自然言語推論により行動計画を策定し、座標レベルの制御コマンドを出力するため、ポリシーとしての中間表現コードの必要性が軽減されます。
私たちのアプローチは、マルチモーダル プロンプト シミュレーション ベンチマークで評価され、自然言語推論を使用したプロンプト エンジニアリング実験が、それがない場合と比べて成功率が大幅に向上することを示しています。
さらに、私たちのアプローチは、自然言語記述がロボット工学のスキルを既知のタスクからこれまで見たことのないタスクに伝達する可能性を示しています。

要約(オリジナル)

We demonstrate experimental results with LLMs that address robotics action planning problems. Recently, LLMs have been applied in robotics action planning, particularly using a code generation approach that converts complex high-level instructions into mid-level policy codes. In contrast, our approach acquires text descriptions of the task and scene objects, then formulates action planning through natural language reasoning, and outputs coordinate level control commands, thus reducing the necessity for intermediate representation code as policies. Our approach is evaluated on a multi-modal prompt simulation benchmark, demonstrating that our prompt engineering experiments with natural language reasoning significantly enhance success rates compared to its absence. Furthermore, our approach illustrates the potential for natural language descriptions to transfer robotics skills from known tasks to previously unseen tasks.

arxiv情報

著者 Yusuke Mikami,Andrew Melnik,Jun Miura,Ville Hautamäki
発行日 2024-03-20 17:58:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO, I.2.7 パーマリンク