Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks

要約

オープンボキャブラリータスクを実行するロボットエージェントを設計することは、ロボット工学と AI における長年の目標でした。
最近、大規模言語モデル (LLM) は、オープンボキャブラリータスクを実行するロボットエージェントの作成において目覚ましい成果を上げています。
ただし、不確実性がある中でこれらのタスクを計画することは、 \enquote{思考連鎖} 推論、環境からの情報の集約、状態推定の更新、更新された状態推定に基づいたアクションの生成が必要となるため、困難です。
この論文では、LLM を使用した部分的に観察可能なタスクの対話型計画手法を紹介します。
提案手法では、LLM を使用してロボットを使用して環境から欠落情報を収集し、収集された観察結果から根本的な問題の状態を推測しながら、必要なアクションを実行するようにロボットを誘導します。
また、自己指導によって微調整された Llama 2 モデルを使用し、そのパフォーマンスを GPT-4 などの事前トレーニングされた LLM と比較します。
結果は、シミュレーションおよび現実世界の環境におけるいくつかのタスクで実証されます。
私たちの取り組みと結果を説明するビデオは、ここでご覧いただけます。

要約(オリジナル)

Designing robotic agents to perform open vocabulary tasks has been the long-standing goal in robotics and AI. Recently, Large Language Models (LLMs) have achieved impressive results in creating robotic agents for performing open vocabulary tasks. However, planning for these tasks in the presence of uncertainties is challenging as it requires \enquote{chain-of-thought} reasoning, aggregating information from the environment, updating state estimates, and generating actions based on the updated state estimates. In this paper, we present an interactive planning technique for partially observable tasks using LLMs. In the proposed method, an LLM is used to collect missing information from the environment using a robot and infer the state of the underlying problem from collected observations while guiding the robot to perform the required actions. We also use a fine-tuned Llama 2 model via self-instruct and compare its performance against a pre-trained LLM like GPT-4. Results are demonstrated on several tasks in simulation as well as real-world environments. A video describing our work along with some results could be found here.

arxiv情報

著者 Lingfeng Sun,Devesh K. Jha,Chiori Hori,Siddarth Jain,Radu Corcodel,Xinghao Zhu,Masayoshi Tomizuka,Diego Romeres
発行日 2023-12-11 22:54:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク