Egocentric Planning for Scalable Embodied Task Achievement

要約

多様な環境下で行動することが求められるエージェントは、特に物体の種類を問わず汎化し、タスクを達成するために適切な行動を実行するという大きな課題に直面している。さらに、エージェントは、不正な行動の実行を最小限に抑えるロバスト性を発揮する必要がある。本研究では、視覚認識と自然言語処理の既存モデルを活用し、複雑な環境におけるタスクを解決するために、シンボリックプランニングとオブジェクト指向POMDPを組み合わせた革新的なアプローチであるEgocentric Planningを発表する。我々は、国内タスク用に設計されたシミュレーション環境であるALFREDで本アプローチを評価し、ALFREDベンチマークで36.07%という素晴らしい未見成功率を達成し、CVPR Embodied AIワークショップのALFREDチャレンジで優勝するなど、高い拡張性を実証した。本手法は、信頼性の高い知覚と、エージェントの行動の前提条件と効果、およびどのようなオブジェクトの種類が他者に関する情報を明らかにするかについての記号的記述の指定または学習が必要です。また、ALFREDを超えるような新しいタスクでも、利用可能なスキルで解決できるのであれば、自然にスケーリングすることが可能です。この研究は、LLMに依存する最近のアプローチを含む、新しいタスクへの一般化を目指すエンドツーエンドおよびハイブリッド手法を研究するための強固なベースラインを提供するものであるが、しばしば長い行動シーケンスへの拡張や新しいタスクに対する強固な計画の作成に苦労する。

要約(オリジナル)

Embodied agents face significant challenges when tasked with performing actions in diverse environments, particularly in generalizing across object types and executing suitable actions to accomplish tasks. Furthermore, agents should exhibit robustness, minimizing the execution of illegal actions. In this work, we present Egocentric Planning, an innovative approach that combines symbolic planning and Object-oriented POMDPs to solve tasks in complex environments, harnessing existing models for visual perception and natural language processing. We evaluated our approach in ALFRED, a simulated environment designed for domestic tasks, and demonstrated its high scalability, achieving an impressive 36.07% unseen success rate in the ALFRED benchmark and winning the ALFRED challenge at CVPR Embodied AI workshop. Our method requires reliable perception and the specification or learning of a symbolic description of the preconditions and effects of the agent’s actions, as well as what object types reveal information about others. It is capable of naturally scaling to solve new tasks beyond ALFRED, as long as they can be solved using the available skills. This work offers a solid baseline for studying end-to-end and hybrid methods that aim to generalize to new tasks, including recent approaches relying on LLMs, but often struggle to scale to long sequences of actions or produce robust plans for novel tasks.

arxiv情報

著者 Xiaotian Liu,Hector Palacios,Christian Muise
発行日 2023-06-02 06:41:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク