要約
RGBビデオ、深さ、カメラのポーズ、視線などのエゴセントリックビジョンにおけるマルチモーダルシグナルを理解することは、拡張現実、ロボット工学、および人間コンピューターの相互作用のアプリケーションに不可欠です。
これらの機能により、システムはカメラの着用者のアクション、意図、および周囲の環境をより適切に解釈できます。
ただし、大規模なエゴセントリックマルチモーダルおよびマルチタスクモデルを構築するには、ユニークな課題があります。
エゴセントリックデータは本質的に異質であり、デバイスと設定全体のモダリティカバレッジに大きなばらつきがあります。
視線やヘッドマウントカメラの軌跡など、欠落しているモダリティのための擬似ラベルを生成することは、しばしば実行不可能であり、標準的な監視された学習アプローチを拡大するのが難しくなります。
さらに、ダイナミックカメラの動きと、一人称ビデオの複雑な時間的および空間構造は、既存のマルチモーダル基礎モデルの直接適用のために追加の課題をもたらします。
これらの課題に対処するために、一連の効率的な時間トーナイザーを導入し、EGOM2Pを提案します。これは、一時的に認識されているマルチモーダルトークンから学習して、エゴセントリック4D理解のための大規模な汎用モデルを訓練することです。
この統一された設計は、視線予測、エゴセントリックカメラ追跡、エゴセントリックビデオの単眼深度推定など、多様なエゴセントリックな知覚と合成タスク全体のマルチタスクをサポートします。
EGOM2Pは、条件付きエゴセントリックビデオ統合の生成モデルとしても機能します。
これらのタスク全体で、EGOM2Pはスペシャリストモデルの一致またはパフォーマンスを上回り、数桁高速にします。
コミュニティをサポートし、エゴセントリックビジョン研究を進めるために、EGOM2Pを完全にオープンします。
プロジェクトページ:https://egom2p.github.io/
要約(オリジナル)
Understanding multimodal signals in egocentric vision, such as RGB video, depth, camera poses, and gaze, is essential for applications in augmented reality, robotics, and human-computer interaction. These capabilities enable systems to better interpret the camera wearer’s actions, intentions, and surrounding environment. However, building large-scale egocentric multimodal and multitask models presents unique challenges. Egocentric data are inherently heterogeneous, with large variations in modality coverage across devices and settings. Generating pseudo-labels for missing modalities, such as gaze or head-mounted camera trajectories, is often infeasible, making standard supervised learning approaches difficult to scale. Furthermore, dynamic camera motion and the complex temporal and spatial structure of first-person video pose additional challenges for the direct application of existing multimodal foundation models. To address these challenges, we introduce a set of efficient temporal tokenizers and propose EgoM2P, a masked modeling framework that learns from temporally aware multimodal tokens to train a large, general-purpose model for egocentric 4D understanding. This unified design supports multitasking across diverse egocentric perception and synthesis tasks, including gaze prediction, egocentric camera tracking, and monocular depth estimation from egocentric video. EgoM2P also serves as a generative model for conditional egocentric video synthesis. Across these tasks, EgoM2P matches or outperforms specialist models while being an order of magnitude faster. We will fully open-source EgoM2P to support the community and advance egocentric vision research. Project page: https://egom2p.github.io/
arxiv情報
著者 | Gen Li,Yutong Chen,Yiqian Wu,Kaifeng Zhao,Marc Pollefeys,Siyu Tang |
発行日 | 2025-06-09 15:59:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google