MERLIN: Multimodal Embedding Refinement via LLM-based Iterative Navigation for Text-Video Retrieval-Rerank Pipeline

要約

マルチメディア コンテンツの急速な拡大により、大規模なコレクションから関連ビデオを正確に取得することがますます困難になっています。
テキストビデオ検索の最近の進歩は、クロスモーダルインタラクション、大規模な基礎モデルのトレーニング、確率的モデリングに重点を置いていますが、重要なユーザーの視点が無視されることが多く、ユーザーのクエリと取得されるコンテンツの間に不一致が生じています。
これに対処するために、反復フィードバック学習に大規模言語モデル (LLM) を活用する、トレーニング不要の新しいパイプラインである MERLIN (LLM ベースの反復ナビゲーションによるマルチモーダル エンベディング リファインメント) を導入します。
MERLIN は、ユーザーの観点からクエリの埋め込みを改良し、動的な質問応答プロセスを通じてクエリとビデオ コンテンツ間の調整を強化します。
MSR-VTT、MSVD、ActivityNet などのデータセットに関する実験結果は、MERLIN が Recall@1 を大幅に向上させ、既存のシステムを上回るパフォーマンスを示し、より応答性が高くコンテキストを認識したマルチメディア検索のために LLM をマルチモーダル検索システムに統合する利点を確認しました。

要約(オリジナル)

The rapid expansion of multimedia content has made accurately retrieving relevant videos from large collections increasingly challenging. Recent advancements in text-video retrieval have focused on cross-modal interactions, large-scale foundation model training, and probabilistic modeling, yet often neglect the crucial user perspective, leading to discrepancies between user queries and the content retrieved. To address this, we introduce MERLIN (Multimodal Embedding Refinement via LLM-based Iterative Navigation), a novel, training-free pipeline that leverages Large Language Models (LLMs) for iterative feedback learning. MERLIN refines query embeddings from a user perspective, enhancing alignment between queries and video content through a dynamic question answering process. Experimental results on datasets like MSR-VTT, MSVD, and ActivityNet demonstrate that MERLIN substantially improves Recall@1, outperforming existing systems and confirming the benefits of integrating LLMs into multimodal retrieval systems for more responsive and context-aware multimedia retrieval.

arxiv情報

著者 Donghoon Han,Eunhwan Park,Gisang Lee,Adam Lee,Nojun Kwak
発行日 2024-07-17 11:45:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク