Selective Visual Representations Improve Convergence and Generalization for Embodied AI

要約

身体化された AI モデルは、視覚的な観察をエンコードするために CLIP などの既製のビジョン バックボーンを使用することがよくあります。
このような汎用表現は、シーンに関する豊富な構文情報および意味情報をエンコードしていますが、多くの場合、この情報の多くは当面の特定のタスクとは無関係です。
これにより、学習プロセス内にノイズが発生し、タスクに関連する視覚的な手がかりからエージェントの集中力がそらされてしまいます。
人間の選択的注意、つまり経験、知識、目前のタスクに基づいて知覚をフィルタリングするプロセスにインスピレーションを得て、私たちは、身体化された AI の視覚刺激をフィルタリングするためのパラメータ効率の高いアプローチを導入します。
私たちのアプローチは、小さな学習可能なコードブック モジュールを使用してタスク条件付きボトルネックを引き起こします。
このコードブックは、タスクの報酬を最適化するために共同でトレーニングされ、視覚的な観察に対してタスク条件付きの選択フィルターとして機能します。
私たちの実験では、ProcTHOR、ArchitecTHOR、RoboTHOR、AI2-iTHOR、ManipulaTHOR の 5 つのベンチマークにわたるオブジェクト ゴール ナビゲーションとオブジェクト変位の最先端のパフォーマンスを示しています。
コードブックによって生成されたフィルタリングされた表現は、Habitat などの他のシミュレーション環境に適応させると、より適切に一般化し、より速く収束することもできます。
私たちの定性的分析は、エージェントが環境をより効果的に探索し、その表現が他のオブジェクトに関する余分な情報を無視しながら、ターゲットオブジェクトの認識などのタスクに関連した情報を保持していることを示しています。
コードと事前トレーニングされたモデルは、プロジェクト Web サイト (https://embodied-codebook.github.io) で入手できます。

要約(オリジナル)

Embodied AI models often employ off the shelf vision backbones like CLIP to encode their visual observations. Although such general purpose representations encode rich syntactic and semantic information about the scene, much of this information is often irrelevant to the specific task at hand. This introduces noise within the learning process and distracts the agent’s focus from task-relevant visual cues. Inspired by selective attention in humans-the process through which people filter their perception based on their experiences, knowledge, and the task at hand-we introduce a parameter-efficient approach to filter visual stimuli for embodied AI. Our approach induces a task-conditioned bottleneck using a small learnable codebook module. This codebook is trained jointly to optimize task reward and acts as a task-conditioned selective filter over the visual observation. Our experiments showcase state-of-the-art performance for object goal navigation and object displacement across 5 benchmarks, ProcTHOR, ArchitecTHOR, RoboTHOR, AI2-iTHOR, and ManipulaTHOR. The filtered representations produced by the codebook are also able generalize better and converge faster when adapted to other simulation environments such as Habitat. Our qualitative analyses show that agents explore their environments more effectively and their representations retain task-relevant information like target object recognition while ignoring superfluous information about other objects. Code and pretrained models are available at our project website: https://embodied-codebook.github.io.

arxiv情報

著者 Ainaz Eftekhar,Kuo-Hao Zeng,Jiafei Duan,Ali Farhadi,Ani Kembhavi,Ranjay Krishna
発行日 2023-11-07 18:34:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク