HAPFI: History-Aware Planning based on Fused Information

要約

身体的命令追従 (EIF) は、「レタスのスライスを洗って、フォークの隣の白いテーブルに置く」などの高レベルの自然言語命令を与えて、一連の長いサブ目標を計画するタスクです。
これらの長期的なタスクを首尾よく実行するには、エージェントは各ステップで意思決定を行うときに、過去、つまり履歴データを考慮する必要があると主張します。
それにもかかわらず、EIF における最近のアプローチは、過去のデータからの知識を無視することが多く、モダリティ全体で情報を効果的に活用していません。
この目的を達成するために、エージェントが環境と対話しながら収集するさまざまなモダリティからの履歴データを効果的に活用する、融合情報に基づく履歴認識計画 (HAPFI) を提案します。
具体的には、HAPFI は、Mutually Attentive Fusion メソッドを介してモダリティを効果的に融合することにより、過去の RGB 観察、バウンディング ボックス、サブゴール、および高レベルの命令を含む複数のモダリティを統合します。
さまざまな比較実験を通じて、過去のマルチモーダル情報を利用するエージェントは、行動計画能力の点で過去のデータを無視した比較されたすべての方法を上回り、次のステップのための十分な情報に基づいた行動計画の生成を可能にすることを示します。
さらに、特にエージェントが中間障害に遭遇したシナリオにおいて、過去のマルチモーダル データを活用する重要性を強調する定性的な証拠を提供し、その堅牢な再計画機能を示しました。

要約(オリジナル)

Embodied Instruction Following (EIF) is a task of planning a long sequence of sub-goals given high-level natural language instructions, such as ‘Rinse a slice of lettuce and place on the white table next to the fork’. To successfully execute these long-term horizon tasks, we argue that an agent must consider its past, i.e., historical data, when making decisions in each step. Nevertheless, recent approaches in EIF often neglects the knowledge from historical data and also do not effectively utilize information across the modalities. To this end, we propose History-Aware Planning based on Fused Information (HAPFI), effectively leveraging the historical data from diverse modalities that agents collect while interacting with the environment. Specifically, HAPFI integrates multiple modalities, including historical RGB observations, bounding boxes, sub-goals, and high-level instructions, by effectively fusing modalities via our Mutually Attentive Fusion method. Through experiments with diverse comparisons, we show that an agent utilizing historical multi-modal information surpasses all the compared methods that neglect the historical data in terms of action planning capability, enabling the generation of well-informed action plans for the next step. Moreover, we provided qualitative evidence highlighting the significance of leveraging historical multi-modal data, particularly in scenarios where the agent encounters intermediate failures, showcasing its robust re-planning capabilities.

arxiv情報

著者 Sujin Jeon,Suyeon Shin,Byoung-Tak Zhang
発行日 2024-07-23 14:46:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク