Object-Centric Latent Action Learning

要約

具体化されたAIの膨大な量の非標識インターネットビデオデータを活用することは、現在、アクションラベルの欠如とアクション相関の視覚ディストラクタの存在によってボトルネックされています。
最近の潜在アクションポリシー最適化(LAPO)は、視覚観測からプロキシアクションラベルを推測することで有望であることを示していますが、ディストラクタが存在すると、そのパフォーマンスは大幅に低下します。
この制限に対処するために、ピクセルではなくオブジェクトを中心とする新しいオブジェクト中心の潜在アクション学習フレームワークを提案します。
私たちは、自己監視されたオブジェクト中心の事前トレーニングを、解き間、アクション関連および気を散らすダイナミクスに向けて活用します。
これにより、LAPOはタスクに関連する相互作用に焦点を当てることができ、より堅牢なプロキシアクションラベルをもたらし、より良い模倣学習とエージェントの効率的な適応を可能にします。
気晴らしコントロールスイート(DCS)と気を散らすMetaworld(DMW)を介した8つの視覚的に複雑なタスクでの方法を評価しました。
我々の結果は、オブジェクト中心の事前削除が、下流のタスクパフォ​​ーマンス、平均リターン(DCS)と成功率(DMW)で測定されるように、ディストラクタの負の影響を50%軽減することを示しています。

要約(オリジナル)

Leveraging vast amounts of unlabeled internet video data for embodied AI is currently bottlenecked by the lack of action labels and the presence of action-correlated visual distractors. Although recent latent action policy optimization (LAPO) has shown promise in inferring proxy-action labels from visual observations, its performance degrades significantly when distractors are present. To address this limitation, we propose a novel object-centric latent action learning framework that centers on objects rather than pixels. We leverage self-supervised object-centric pretraining to disentangle action-related and distracting dynamics. This allows LAPO to focus on task-relevant interactions, resulting in more robust proxy-action labels, enabling better imitation learning and efficient adaptation of the agent with just a few action-labeled trajectories. We evaluated our method in eight visually complex tasks across the Distracting Control Suite (DCS) and Distracting MetaWorld (DMW). Our results show that object-centric pretraining mitigates the negative effects of distractors by 50%, as measured by downstream task performance: average return (DCS) and success rate (DMW).

arxiv情報

著者 Albina Klepach,Alexander Nikulin,Ilya Zisman,Denis Tarasov,Alexander Derevyagin,Andrei Polubarov,Nikita Lyubaykin,Vladislav Kurenkov
発行日 2025-06-12 17:21:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク