Socratic Planner: Self-QA-Based Zero-Shot Planning for Embodied Instruction Following

要約

次の具体化された命令(EIF)は、インタラクティブな環境でオブジェクトをナビゲートして対話することにより、自然言語の指示を実行するタスクです。
EIFの重要な課題は、通常、監視された学習またはラベル付きデータを使用した少数のコンテキスト学習を通じて対処される構成タスク計画です。
この目的のために、Socratic Plannerを紹介します。これは、さらなるトレーニングなしで適切な計画を行う自己QAベースのゼロショット計画方法です。
ソクラテスプランナーは、最初に大規模な言語モデル(LLM)による自己質問と応答を促進し、これが一連のサブゴールを生成するのに役立ちます。
サブゴールを実行している間、具体化されたエージェントは、予期せぬ障害などの予期しない状況に遭遇する可能性があります。
ソクラテスプランナーは、視覚的に接地された再計画メカニズムを介した密な視覚フィードバックに基づいて計画を調整します。
実験は、ソクラテスプランナーの有効性を示しており、すべてのメトリックのアルフレッドベンチマークで現在の最先端の計画モデルを上回り、特に複雑な推論を必要とする長老タスクに優れています。
さらに、長期式タスクの物理ロボットでの展開を通じて、その現実世界の適用性を実証します。

要約(オリジナル)

Embodied Instruction Following (EIF) is the task of executing natural language instructions by navigating and interacting with objects in interactive environments. A key challenge in EIF is compositional task planning, typically addressed through supervised learning or few-shot in-context learning with labeled data. To this end, we introduce the Socratic Planner, a self-QA-based zero-shot planning method that infers an appropriate plan without any further training. The Socratic Planner first facilitates self-questioning and answering by the Large Language Model (LLM), which in turn helps generate a sequence of subgoals. While executing the subgoals, an embodied agent may encounter unexpected situations, such as unforeseen obstacles. The Socratic Planner then adjusts plans based on dense visual feedback through a visually-grounded re-planning mechanism. Experiments demonstrate the effectiveness of the Socratic Planner, outperforming current state-of-the-art planning models on the ALFRED benchmark across all metrics, particularly excelling in long-horizon tasks that demand complex inference. We further demonstrate its real-world applicability through deployment on a physical robot for long-horizon tasks.

arxiv情報

著者 Suyeon Shin,Sujin jeon,Junghyun Kim,Gi-Cheon Kang,Byoung-Tak Zhang
発行日 2025-03-26 07:42:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T45, 68T50, cs.AI, cs.CL, cs.CV, cs.RO パーマリンク