MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion

要約

ビデオには、視覚イベント、テキストオーバーレイ、サウンド、音声など、複数のモダリティが本質的に含まれています。これらはすべて検索に重要​​です。
ただし、VastやLanguageBindなどの最先端のマルチモーダル言語モデルは、Vision言語モデル(VLM)に基づいて構築されているため、視覚信号を過度に優先します。
検索ベンチマークは、視覚的なクエリに焦点を当て、他のモダリティを無視することにより、このバイアスをさらに強化します。
視覚モダリティとオーディオモダリティの両方からテキストと機能を抽出し、新しいモダリティを認識した加重相互ランク融合と統合する検索システムmmmorrfを作成します。
Mmmorrfは効果的かつ効率的であり、視覚的な記述クエリの代わりにユーザーの情報ニーズに基づいてビデオを検索する際の実用性を示しています。
Multivent 2.0とTVRのMmmorrfを評価します。これは、よりターゲットを絞った情報ニーズに合わせて設計された2つのマルチモーダルベンチマークであり、主要なマルチモーダルエンコーダーよりもNDCG@20 x 81%、単一モダリティの検索よりも37%を改善し、多様なモダリティを統合する価値を示しています。

要約(オリジナル)

Videos inherently contain multiple modalities, including visual events, text overlays, sounds, and speech, all of which are important for retrieval. However, state-of-the-art multimodal language models like VAST and LanguageBind are built on vision-language models (VLMs), and thus overly prioritize visual signals. Retrieval benchmarks further reinforce this bias by focusing on visual queries and neglecting other modalities. We create a search system MMMORRF that extracts text and features from both visual and audio modalities and integrates them with a novel modality-aware weighted reciprocal rank fusion. MMMORRF is both effective and efficient, demonstrating practicality in searching videos based on users’ information needs instead of visual descriptive queries. We evaluate MMMORRF on MultiVENT 2.0 and TVR, two multimodal benchmarks designed for more targeted information needs, and find that it improves nDCG@20 by 81% over leading multimodal encoders and 37% over single-modality retrieval, demonstrating the value of integrating diverse modalities.

arxiv情報

著者 Saron Samuel,Dan DeGenaro,Jimena Guallar-Blasco,Kate Sanders,Oluwaseun Eisape,Arun Reddy,Alexander Martin,Andrew Yates,Eugene Yang,Cameron Carpenter,David Etter,Efsun Kayi,Matthew Wiesner,Kenton Murray,Reno Kriz
発行日 2025-03-26 16:28:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR パーマリンク