要約
エゴセントリック(ファーストパーソン、エゴ)およびエクソセントリック(サードパーソン、エクソー)のビデオから学習するビュー不変の表現は、複数の視点にわたってビデオ理解システムを一般化するための有望なアプローチです。
ただし、この領域は、自我とEXOビューの間の視点、モーションパターン、およびコンテキストの実質的な違いのために、露出度が低いです。
この論文では、因果的な時間的ダイナミクスとクロスビューアラインメントの両方を促進する新しいマスクされた自我エキソモデリングを提案します。これは、bootStrap your bookStrap(BYOV)と呼ばれ、微調整されたビュー不変ビデオ表現を、対応していないエゴエゾビデオから学習します。
堅牢なクロスビューの理解の基礎として、人間の行動の構成性をキャプチャすることの重要性を強調します。
具体的には、セルフビューマスキングとクロスビューマスキング予測は、ビュー不変で強力な表現を同時に学習するように設計されています。
実験結果は、BYOVが4つのダウンストリームエゴエキソビデオタスクのすべてのメトリックにわたって顕著な利益を持つ既存のアプローチを大幅に上回っていることを示しています。
このコードは、https://github.com/park-jungin/byovで入手できます。
要約(オリジナル)
View-invariant representation learning from egocentric (first-person, ego) and exocentric (third-person, exo) videos is a promising approach toward generalizing video understanding systems across multiple viewpoints. However, this area has been underexplored due to the substantial differences in perspective, motion patterns, and context between ego and exo views. In this paper, we propose a novel masked ego-exo modeling that promotes both causal temporal dynamics and cross-view alignment, called Bootstrap Your Own Views (BYOV), for fine-grained view-invariant video representation learning from unpaired ego-exo videos. We highlight the importance of capturing the compositional nature of human actions as a basis for robust cross-view understanding. Specifically, self-view masking and cross-view masking predictions are designed to learn view-invariant and powerful representations concurrently. Experimental results demonstrate that our BYOV significantly surpasses existing approaches with notable gains across all metrics in four downstream ego-exo video tasks. The code is available at https://github.com/park-jungin/byov.
arxiv情報
著者 | Jungin Park,Jiyoung Lee,Kwanghoon Sohn |
発行日 | 2025-03-25 14:33:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google