EgoAgent: A Joint Predictive Agent Model in Egocentric Worlds

要約

この論文では、人間のように振る舞うエージェントモデルを学習するタスクに対処します。これは、エゴセントリックな世界で共同で知覚、予測、行動することができます。
以前の方法は通常、これらの3つの能力のために個別のモデルをトレーニングします。これにより、互いに学習することができません。
この論文では、Egoagentという名前の共同予測エージェントモデルを提案します。これは、世界を代表し、将来の状態を予測し、単一の変圧器内で合理的な行動をとることを同時に学習します。
Egoagentは、これらの能力の因果的かつ時間的に絡み合った性質から学ぶための2つのイノベーションを導入します。(1)因果的注意メカニズムを備えた状態とアクションのインターリーブされたシーケンシャルモデリング、および(2)時間的非対称予測因子障害者分岐を特徴とする共同埋め込み – アクション予測アーキテクチャ。
Jepaに基づいてこれらの設計を統合すると、Egoagentはこれらの機能をまとまりのある学習フレームワークに統合します。
画像分類、エゴセントリックの将来の状態予測、3Dヒューマンモーション予測タスクなどの代表的なタスクに関するエゴーゲントの包括的な評価は、私たちの方法の優位性を示しています。
コードと訓練されたモデルは、再現性のためにリリースされます。

要約(オリジナル)

This paper addresses the task of learning an agent model behaving like humans, which can jointly perceive, predict, and act in egocentric worlds. Previous methods usually train separate models for these three abilities, which prevents them from learning from each other. In this paper, we propose a joint predictive agent model, named EgoAgent, that simultaneously learns to represent the world, predict future states, and take reasonable actions within a single transformer. EgoAgent introduces two innovations to learn from the causal and temporally intertwined nature of these abilities: (1) Interleaved sequential modeling of states and actions with the causal attention mechanism, and (2) A joint embedding-action-prediction architecture featuring temporal asymmetric predictor-observer branches. Integrating these designs based on JEPA, EgoAgent unifies these capabilities in a cohesive learning framework. Comprehensive evaluations of EgoAgent on representative tasks such as image classification, egocentric future state prediction, and 3D human motion prediction tasks demonstrate the superiority of our method. The code and trained model will be released for reproducibility.

arxiv情報

著者 Lu Chen,Yizhou Wang,Shixiang Tang,Qianhong Ma,Tong He,Wanli Ouyang,Xiaowei Zhou,Hujun Bao,Sida Peng
発行日 2025-04-29 15:45:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク