A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames

要約

現実世界の長いビデオを理解するには、広範囲にわたる視覚的な依存関係のモデリングが必要です。
この目的を達成するために、私たちは、浅い時間融合を介して大規模な画像とテキストのモデルをビデオに転送するという共通のパラダイムに基づいて、ビデオファーストのアーキテクチャを探索します。
ただし、このアプローチには 2 つの制限があることを明らかにしました。(1) 標準的なビデオ データセットにおけるビデオと言語の整合性が低いために空間機能が低下すること、(2) メモリ消費量が増加し、処理できるフレーム数がボトルネックになることです。
メモリのボトルネックを軽減するために、因数分解された注意、パラメータ効率の高い画像からビデオへの適応、入力マスキング、および多重解像度のパッチ化など、さまざまな効率的な方法のメモリと精度のトレードオフを体系的に分析します。
驚くべきことに、コントラスト事前トレーニング中にビデオの大部分 (最大 75%) を単純にマスクすることは、エンコーダを 1 FPS で最大 4.3 分のビデオにスケールする最も堅牢な方法の 1 つであることがわかります。
1B パラメーターにスケールする、長いビデオからテキストへのモデルをトレーニングするためのシンプルなアプローチは、アーキテクチャの新たな複雑さを追加せず、ベンチマーク上のセグメントベースの情報よりもはるかに大規模な LLM を情報アグリゲーターとして使用する一般的なパラダイムを上回るパフォーマンスを発揮できます。
長期にわたる一時的な依存関係 (YouCook2、EgoSchema)。

要約(オリジナル)

Understanding long, real-world videos requires modeling of long-range visual dependencies. To this end, we explore video-first architectures, building on the common paradigm of transferring large-scale, image–text models to video via shallow temporal fusion. However, we expose two limitations to the approach: (1) decreased spatial capabilities, likely due to poor video–language alignment in standard video datasets, and (2) higher memory consumption, bottlenecking the number of frames that can be processed. To mitigate the memory bottleneck, we systematically analyze the memory/accuracy trade-off of various efficient methods: factorized attention, parameter-efficient image-to-video adaptation, input masking, and multi-resolution patchification. Surprisingly, simply masking large portions of the video (up to 75%) during contrastive pre-training proves to be one of the most robust ways to scale encoders to videos up to 4.3 minutes at 1 FPS. Our simple approach for training long video-to-text models, which scales to 1B parameters, does not add new architectural complexity and is able to outperform the popular paradigm of using much larger LLMs as an information aggregator over segment-based information on benchmarks with long-range temporal dependencies (YouCook2, EgoSchema).

arxiv情報

著者 Pinelopi Papalampidi,Skanda Koppula,Shreya Pathak,Justin Chiu,Joe Heyward,Viorica Patraucean,Jiajun Shen,Antoine Miech,Andrew Zisserman,Aida Nematzadeh
発行日 2024-12-30 09:51:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク