LV-MAE: Learning Long Video Representations through Masked-Embedding Autoencoders

要約

本論文では、長尺映像表現のための自己教師付き学習フレームワークである、長尺映像マスク埋め込みオートエンコーダ(LV-MAE)を紹介する。我々のアプローチは、短いスパンと長いスパンの依存関係を2つの別々のタスクとして扱う。このような分離により、短時間の時空間プリミティブを最初に符号化し、次に連続するビデオセグメントにわたる長距離依存性を捕捉するために使用するという、より直感的なビデオ処理が可能になる。これを実現するために、我々は市販の先進的なマルチモーダルエンコーダを活用して、長い映像内の短いセグメントから表現を抽出し、その後、セグメント間の高レベルの相互作用を捕捉するマスク埋め込みオートエンコーダを事前学習する。LV-MAEは学習効率が高く、入力フレーム数の制約を緩和することで、より長いビデオの処理を可能にする。さらに、一般的に短い動画データセットで事前学習を行う既存の手法とは異なり、我々のアプローチでは、長い動画サンプル(例えば20分以上の動画クリップ)を用いて自己教師付き事前学習を行う。LV-MAE表現を用いることで、LVU、COIN、Breakfastの3つの長時間のビデオベンチマークにおいて、注意深いプロービングか線形プロービングのどちらかの単純な分類ヘッドを用いるだけで、最先端の結果を達成した。最後に、LV-MAEの事前学習を評価し、その再構成品質を可視化するために、短いビデオ表現のビデオ言語整列空間を活用し、ビデオテキスト検索を通してLV-MAEを監視する。

要約(オリジナル)

In this work, we introduce long-video masked-embedding autoencoders (LV-MAE), a self-supervised learning framework for long video representation. Our approach treats short- and long-span dependencies as two separate tasks. Such decoupling allows for a more intuitive video processing where short-span spatiotemporal primitives are first encoded and are then used to capture long-range dependencies across consecutive video segments. To achieve this, we leverage advanced off-the-shelf multimodal encoders to extract representations from short segments within the long video, followed by pre-training a masked-embedding autoencoder capturing high-level interactions across segments. LV-MAE is highly efficient to train and enables the processing of much longer videos by alleviating the constraint on the number of input frames. Furthermore, unlike existing methods that typically pre-train on short-video datasets, our approach offers self-supervised pre-training using long video samples (e.g., 20+ minutes video clips) at scale. Using LV-MAE representations, we achieve state-of-the-art results on three long-video benchmarks — LVU, COIN, and Breakfast — employing only a simple classification head for either attentive or linear probing. Finally, to assess LV-MAE pre-training and visualize its reconstruction quality, we leverage the video-language aligned space of short video representations to monitor LV-MAE through video-text retrieval.

arxiv情報

著者 Ilan Naiman,Emanuel Ben-Baruch,Oron Anschel,Alon Shoshan,Igor Kviatkovsky,Manoj Aggarwal,Gerard Medioni
発行日 2025-04-04 14:56:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク