要約
オンラインビデオWebコンテンツは豊富にマルチモーダルです。単一のビデオは、ビジョン、スピーチ、アンビエントオーディオ、および画面上のテキストをブレンドします。
検索システムは通常、これらのモダリティを独立した検索ソースとして扱い、騒々しい検索につながる可能性があります。
マルチモーダルビデオコンテンツの検索を検討します。ここでは、特定のモダリティから、または複数のモダリティを同時に共同で採点できます。
したがって、効果的なレトリバーは、どのモダリティ(またはモダリティのセット)がクエリに最適に対処するかを動的に選択する必要があります。
ビデオフレーム、転写されたスピーチ、画面上のテキスト、メタデータの4つのモダリティを共同でインデックスするマルチモーダルの後期インタラクションレトリバーであるClamrを紹介します。
CLAMRは、コンテキストを改善するためにすべてのモダリティを統一されたマルチモーダルバックボーンと共同でエンコードし、2つの重要なイノベーションを介して動的モダリティ選択を強化するように訓練されています。
まず、マルチモーダル検索のトレーニングデータが不足していることを考えると、Multivent 2.0(クエリと組み合わせたさまざまな言語のイベント中心のビデオ)に構築された大規模な合成トレーニングデータセットであるMultivent 2.0 ++をモダリティターゲティングクエリと紹介します。
次に、正しいモダリティ使用量を学習するための目標とともに、標準的な対照的な目的に従って共同で訓練するモダリティを意識する損失を提案します。
Multivent 2.0 ++およびMSRVTTのテストセットでは、ベースラインレトリバーの平均類似性などの従来の集約戦略は、無関係なモダリティからノイズを導入することによりパフォーマンスを低下させます。
対照的に、CLAMRは既存のレトリバーを一貫して上回ります。Multivent2.0++では、CLAMRは最高のシングルモダリティレトリバーでNDCG@10 x 25.6を改善し、最高のマルチモダリティレトリバーで35.4を改善します。
CLAMRの長いビデオQAでの下流のユーティリティを示し、関連するフレームを取得し、LongideObenchでの密なサンプリングよりもVideo-MMEでのLanguageBindを3.50%増加させ、1.42%を獲得します。
要約(オリジナル)
Online video web content is richly multimodal: a single video blends vision, speech, ambient audio, and on-screen text. Retrieval systems typically treat these modalities as independent retrieval sources, which can lead to noisy and subpar retrieval. We explore multimodal video content retrieval, where relevance can be scored from one particular modality or jointly across multiple modalities simultaneously. Consequently, an effective retriever must dynamically choose which modality (or set of modalities) best addresses the query. We introduce CLaMR, a multimodal, late-interaction retriever that jointly indexes 4 modalities: video frames, transcribed speech, on-screen text, and metadata. CLaMR jointly encodes all modalities with a unified multimodal backbone for improved contextualization and is trained to enhance dynamic modality selection via two key innovations. First, given the lack of training data for multimodal retrieval, we introduce MultiVENT 2.0++, a large-scale synthetic training dataset built on MultiVENT 2.0 (event-centric videos in various languages paired with queries) with modality-targeted queries. Next, we propose a modality-aware loss that jointly trains according to a standard contrastive objective alongside an objective for learning correct modality usage. On the test sets of MultiVENT 2.0++ and MSRVTT, conventional aggregation strategies, such as averaging similarities for baseline retrievers, degrade performance by introducing noise from irrelevant modalities. In contrast, CLaMR consistently outperforms existing retrievers: on MultiVENT 2.0++, CLaMR improves nDCG@10 by 25.6 over the best single-modality retriever and by 35.4 over the best multi-modality retriever. We illustrate CLaMR’s downstream utility on long-video QA, retrieving relevant frames and obtaining a 3.50% boost over LanguageBind on Video-MME and 1.42% over dense sampling on LongVideoBench.
arxiv情報
著者 | David Wan,Han Wang,Elias Stengel-Eskin,Jaemin Cho,Mohit Bansal |
発行日 | 2025-06-06 15:02:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google