Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment

要約

大規模なビデオ言語モデル (VLM) の事前トレーニングは、さまざまなダウンストリームのビデオ言語タスクに対して顕著な可能性を示していますが、既存の VLM は依然として、粗粒度のクロスモーダル位置合わせ、モデリングの不足など、一般的に見られる特定の制限に悩まされる可能性があります。
時間的ダイナミクス、切り離されたビデオ言語の視点。
この研究では、きめの細かい構造時空間アライメント学習法 (すなわち Finsta) を使用して VLM を強化することを目標としています。
まず、入力テキストとビデオをきめ細かいシーン グラフ (SG) 構造で表現します。これらはさらに、2 つのモダリティを橋渡しするための総合的 SG (HSG) に統合されます。
次に、SG ベースのフレームワークが構築されます。テキスト SG (TSG) はグラフ Transformer でエンコードされ、ビデオ動的 SG (DSG) と HSG は空間的および時間的特徴の伝播のために新しいリカレント グラフ Transformer でモデル化されます。
時空間ガウス微分グラフ Transformer は、空間次元と時間次元にわたるオブジェクトの変化の感覚を強化するためにさらに考案されました。
次に、TSGとDSGのきめ細かい構造特徴に基づいて、それぞれオブジェクト中心の空間的アライメントと述語中心の時間的アライメントを実行し、空間性と時間性の両方におけるビデオ言語の基礎を強化します。
私たちはプラグアンドプレイ システムとしてメソッドを設計します。これは、スクラッチからトレーニングしたり、ダウンストリーム アプリケーションの SG アノテーションに依存したりすることなく、十分にトレーニングされた既存の VLM に統合して表現をさらに拡張できます。
標準ビデオ シナリオと長編ビデオ シナリオの両方で、12 のデータセットにわたる 6 つの代表的な VL モデリング タスクにおいて、Finsta は既存の 13 の強力なパフォーマンスの VLM を持続的に改善し、現在の最先端のエンド タスクのパフォーマンスを両方の細かいシナリオで大幅に更新します。
-チューニングとゼロショット設定。

要約(オリジナル)

While pre-training large-scale video-language models (VLMs) has shown remarkable potential for various downstream video-language tasks, existing VLMs can still suffer from certain commonly seen limitations, e.g., coarse-grained cross-modal aligning , under-modeling of temporal dynamics, detached video-language view. In this work, we target enhancing VLMs with a fine-grained structural spatio-temporal alignment learning method (namely Finsta). First of all, we represent the input texts and videos with fine-grained scene graph (SG) structures, both of which are further unified into a holistic SG (HSG) for bridging two modalities. Then, an SG-based framework is built, where the textual SG (TSG) is encoded with a graph Transformer, while the video dynamic SG (DSG) and the HSG are modeled with a novel recurrent graph Transformer for spatial and temporal feature propagation. A spatial-temporal Gaussian differential graph Transformer is further devised to strengthen the sense of the changes in objects across spatial and temporal dimensions. Next, based on the fine-grained structural features of TSG and DSG, we perform object-centered spatial alignment and predicate-centered temporal alignment respectively, enhancing the video-language grounding in both the spatiality and temporality. We design our method as a plug&play system, which can be integrated into existing well-trained VLMs for further representation augmentation, without training from scratch or relying on SG annotations in downstream applications. On 6 representative VL modeling tasks over 12 datasets in both standard and long-form video scenarios, Finsta consistently improves the existing 13 strong-performing VLMs persistently, and refreshes the current state-of-the-art end task performance significantly in both the fine-tuning and zero-shot settings.

arxiv情報

著者 Hao Fei,Shengqiong Wu,Meishan Zhang,Min Zhang,Tat-Seng Chua,Shuicheng Yan
発行日 2024-06-27 15:23:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク