Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning

要約

我々は、自己中心的なビデオ表現学習のためにエキソセントリックなビデオ言語データを変換するように設計された方法であるEMBED (Egocentric Models Built with Exocentric Data)を紹介します。
大規模なエキソセントリック データは、自己中心的な学習の大きな可能性を秘めた多様なアクティビティをカバーしていますが、自己中心的なデータとエキソセントリックなデータの間には固有の差異があるため、一方のビューをもう一方のビューにシームレスに利用する際に課題が生じます。
自己中心的なビデオは主に手と物体との接写をクローズアップしたものですが、エゴセントリックなビデオは人間の活動についてより広い視点を提供します。
さらに、自己中心的なデータセットの物語は、通常、自己中心的なデータセットに見られる物語スタイルとは対照的に、よりアクション中心であり、視覚的なコンテンツと密接にリンクしています。
これらの課題に対処するために、私たちはデータ変換フレームワークを採用して、エゴセントリックなデータを自己中心的なトレーニングに適応させ、手とオブジェクトのインタラクションを強調する特定のビデオ クリップを特定し、ナレーション スタイルを自己中心的な視点に合わせて変換することに重点を置いています。
視覚と言語スタイルの両方の転送を適用することで、私たちのフレームワークは、エキソセントリックなビデオ言語データから派生した新しいエゴセントリックなデータセットを作成します。
広範な評価を通じて、EMBED の有効性を実証し、Epic-Kitchens-100 マルチインスタンス検索で 4.7% の絶対改善、EGTEA で 6.2% の絶対改善など、さまざまな自己中心的な下流タスク全体で最先端の結果を達成しました。
ゼロショット設定での分類ベンチマーク。
さらに、EMBED により、自己中心的なビデオ言語モデルが自己中心的なタスクで競争力を持って実行できるようになります。
最後に、さまざまなエキソセントリック データセットにわたる EMBED のアプリケーションを紹介し、さまざまなエキソセントリック データセットに適用した場合に強力な一般化機能を示します。

要約(オリジナル)

We present EMBED (Egocentric Models Built with Exocentric Data), a method designed to transform exocentric video-language data for egocentric video representation learning. Large-scale exocentric data covers diverse activities with significant potential for egocentric learning, but inherent disparities between egocentric and exocentric data pose challenges in utilizing one view for the other seamlessly. Egocentric videos predominantly feature close-up hand-object interactions, whereas exocentric videos offer a broader perspective on human activities. Additionally, narratives in egocentric datasets are typically more action-centric and closely linked with the visual content, in contrast to the narrative styles found in exocentric datasets. To address these challenges, we employ a data transformation framework to adapt exocentric data for egocentric training, focusing on identifying specific video clips that emphasize hand-object interactions and transforming narration styles to align with egocentric perspectives. By applying both vision and language style transfer, our framework creates a new egocentric dataset derived from exocentric video-language data. Through extensive evaluations, we demonstrate the effectiveness of EMBED, achieving state-of-the-art results across various egocentric downstream tasks, including an absolute improvement of 4.7% on the Epic-Kitchens-100 multi-instance retrieval and 6.2% on the EGTEA classification benchmarks in zero-shot settings. Furthermore, EMBED enables egocentric video-language models to perform competitively in exocentric tasks. Finally, we showcase EMBED’s application across various exocentric datasets, exhibiting strong generalization capabilities when applied to different exocentric datasets.

arxiv情報

著者 Zi-Yi Dou,Xitong Yang,Tushar Nagarajan,Huiyu Wang,Jing Huang,Nanyun Peng,Kris Kitani,Fu-Jen Chu
発行日 2024-08-07 06:10:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク