Egocentric Video-Language Pretraining

要約

ビデオテキストのダウンストリームタスクを幅広く進めるために転送可能な表現を学習することを目的としたビデオ言語事前トレーニング(VLP)は、最近ますます注目を集めています。
強力なパフォーマンスを実現する主要な作品は、HowTo100Mなどの大規模な3人称ビデオテキストデータセットに依存しています。
この作業では、最近リリースされたEgo4Dデータセットを活用して、3つの方向に沿ってEgocentricVLPを開拓します。
(i)Ego4Dから厳選された380万のクリップテキストペアで構成される1人称ビデオテキスト事前トレーニングデータセットであるEgoClipを作成し、さまざまな人間の日常活動をカバーします。
(ii)EgoNCEと呼ばれる新しい事前トレーニングの目的を提案します。これは、自己中心性を意識したポジティブサンプルとネガティブサンプルをマイニングすることにより、ビデオテキストの対照学習をエゴセントリックドメインに適応させます。
(iii)EgoClipに近い開発ベンチマークであるEgoMCQを導入します。これにより、EgoClipおよびEgoNCEに関する設計決定の効果的な検証と迅速な調査をサポートできます。
さらに、3つのデータセットにわたる5つの自己中心的なダウンストリームタスクで強力なパフォーマンスを示します。EPIC-KITCHENS-100でのビデオテキスト検索。
シャレードの行動認識-自我;
Ego4Dチャレンジベンチマークでの自然言語クエリ、モーメントクエリ、およびオブジェクト状態変更の分類。
データセットとコードはhttps://github.com/showlab/EgoVLPで入手できます。

要約(オリジナル)

Video-Language Pretraining (VLP), aiming to learn transferable representation to advance a wide range of video-text downstream tasks, has recently received increasing attention. Dominant works that achieve strong performance rely on large-scale, 3rd-person video-text datasets, such as HowTo100M. In this work, we exploit the recently released Ego4D dataset to pioneer Egocentric VLP along three directions. (i) We create EgoClip, a 1st-person video-text pretraining dataset comprising 3.8M clip-text pairs well-chosen from Ego4D, covering a large variety of human daily activities. (ii) We propose a novel pretraining objective, dubbed as EgoNCE, which adapts video-text contrastive learning to egocentric domain by mining egocentric-aware positive and negative samples. (iii) We introduce EgoMCQ, a development benchmark that is close to EgoClip and hence can support effective validation and fast exploration of our design decisions regarding EgoClip and EgoNCE. Furthermore, we demonstrate strong performance on five egocentric downstream tasks across three datasets: video-text retrieval on EPIC-KITCHENS-100; action recognition on Charades-Ego; and natural language query, moment query, and object state change classification on Ego4D challenge benchmarks. The dataset and code will be available at https://github.com/showlab/EgoVLP.

arxiv情報

著者 Kevin Qinghong Lin,Alex Jinpeng Wang,Mattia Soldan,Michael Wray,Rui Yan,Eric Zhongcong Xu,Difei Gao,Rongcheng Tu,Wenzhe Zhao,Weijie Kong,Chengfei Cai,Hongfa Wang,Dima Damen,Bernard Ghanem,Wei Liu,Mike Zheng Shou
発行日 2022-06-03 16:28:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク