SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training

要約

強力なマルチモーダル表現を学習するには、ビデオ言語の事前トレーニングが不可欠です。
ただし、通常は大量の計算が必要です。
この論文では、ビデオ言語モデルの効率的な事前トレーニング フレームワークである SMAUG を開発します。
SMAUG の基本コンポーネントは、マスクされたオートエンコーダーです。
テキスト入力のみをマスクする以前の作業とは異なり、マスキング戦略は視覚的モダリティとテキスト モダリティの両方を考慮し、より優れたクロスモーダル アラインメントを提供し、より多くの事前トレーニング コストを節約します。
その上で、時空間トークンのスパース化モジュールを導入します。これは、コンテキスト情報を活用して、事前トレーニングのために「重要な」空間領域と時間フレームのみをさらに選択します。
これらすべての設計を組み合わせることで、私たちの方法は、テキストからビデオへの検索とビデオの質問応答タスクで競争力のあるパフォーマンスを享受し、事前トレーニングのコストを 1.9 倍以上削減することができます。
たとえば、当社の SMAUG は、6 つの一般的なベンチマークでこれら 2 つのビデオ言語タスクで競争力のあるパフォーマンスを達成するための事前トレーニングに、約 50 NVIDIA A6000 GPU 時間しか必要としません。

要約(オリジナル)

Video-language pre-training is crucial for learning powerful multi-modal representation. However, it typically requires a massive amount of computation. In this paper, we develop SMAUG, an efficient pre-training framework for video-language models. The foundation component in SMAUG is masked autoencoders. Different from prior works which only mask textual inputs, our masking strategy considers both visual and textual modalities, providing a better cross-modal alignment and saving more pre-training costs. On top of that, we introduce a space-time token sparsification module, which leverages context information to further select only ‘important’ spatial regions and temporal frames for pre-training. Coupling all these designs allows our method to enjoy both competitive performances on text-to-video retrieval and video question answering tasks, and much less pre-training costs by 1.9X or more. For example, our SMAUG only needs about 50 NVIDIA A6000 GPU hours for pre-training to attain competitive performances on these two video-language tasks across six popular benchmarks.

arxiv情報

著者 Yuanze Lin,Chen Wei,Huiyu Wang,Alan Yuille,Cihang Xie
発行日 2022-11-22 17:27:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク