RePLan: Robotic Replanning with Perception and Language Models

要約

大規模言語モデル (LLM) の進歩により、高レベルの推論、論理的推論、ロボット工学の計画を容易にする可能性が実証されました。
最近では、LLM は低レベルのロボットの動作に対する報酬関数を生成することもでき、高レベルの計画と低レベルのロボット制御の間のインターフェイスを効果的に橋渡しします。
ただし、構文的に正しい計画を立てたとしても、ロボットが意図した目標を達成できない可能性があるという課題が残っています。
この失敗は、LLM によって提案された不完全な計画、またはオブジェクトの状態についての誤った仮定により計画されたサブタスクの実行を妨げる予期せぬ環境状況に起因する可能性があります。
これらの課題を防ぐ 1 つの方法は、人間が提供する段階的な指示に依存し、ロボット システムの自律性を制限することです。
ビジョン言語モデル (VLM) は、視覚的な質問応答や画像キャプションなどのタスクで目覚ましい成功を収めています。
VLM の機能を活用して、長期的なタスクのリアルタイム再計画機能を可能にする、知覚および言語モデルを使用したロボット再計画 (RePLan) と呼ばれる新しいフレームワークを紹介します。
このフレームワークは、VLM による世界の状態の理解によって提供される物理的基盤を利用して、初期計画が望ましい目標を達成できない場合にロボットの動作を適応させます。
7 つの長期的なタスクを含む 4 つの環境内でアプローチをテストします。
RePLan を使用すると、ベースライン モデルでは不可能な、無制限で長期的な目標を達成しながら、ロボットが予期せぬ障害物にうまく適応できることがわかりました。
詳細については、https://replan-lm.github.io/replan.github.io/ をご覧ください。

要約(オリジナル)

Advancements in large language models (LLMs) have demonstrated their potential in facilitating high-level reasoning, logical reasoning and robotics planning. Recently, LLMs have also been able to generate reward functions for low-level robot actions, effectively bridging the interface between high-level planning and low-level robot control. However, the challenge remains that even with syntactically correct plans, robots can still fail to achieve their intended goals. This failure can be attributed to imperfect plans proposed by LLMs or to unforeseeable environmental circumstances that hinder the execution of planned subtasks due to erroneous assumptions about the state of objects. One way to prevent these challenges is to rely on human-provided step-by-step instructions, limiting the autonomy of robotic systems. Vision Language Models (VLMs) have shown remarkable success in tasks such as visual question answering and image captioning. Leveraging the capabilities of VLMs, we present a novel framework called Robotic Replanning with Perception and Language Models (RePLan) that enables real-time replanning capabilities for long-horizon tasks. This framework utilizes the physical grounding provided by a VLM’s understanding of the world’s state to adapt robot actions when the initial plan fails to achieve the desired goal. We test our approach within four environments containing seven long-horizion tasks. We find that RePLan enables a robot to successfully adapt to unforeseen obstacles while accomplishing open-ended, long-horizon goals, where baseline models cannot. Find more information at https://replan-lm.github.io/replan.github.io/

arxiv情報

著者 Marta Skreta,Zihan Zhou,Jia Lin Yuan,Kourosh Darvish,Alán Aspuru-Guzik,Animesh Garg
発行日 2024-01-08 18:57:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク