SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs

要約

クロスモーダル検索(CMR)は、マルチメディア研究の基本的なタスクであり、異なるモダリティにわたって意味的に関連するターゲットを取得することに焦点を当てています。
従来のCMRメソッドは、埋め込みベースの類似性計算を介してテキストと画像を一致させますが、事前に訓練された生成モデルの最近の進歩により、有望な代替手段として生成検索が確立されました。
このパラダイムは、各ターゲットに一意の識別子を割り当て、生成モデルをレバレッジして、明示的なインデックス付けなしに入力クエリに対応する識別子を直接予測します。
その大きな可能性にもかかわらず、現在の生成CMRアプローチは、識別子の構築プロセスと生成プロセスの両方において、依然としてセマンティック情報不足に直面しています。
これらの制限に対処するために、生成クロスモーダル検索タスクのセマンティック理解機能を解き放つように設計された、新しい統一されたセマンティック強化生成クロスモーダル回収フレームワーク(SEMCORE)を提案します。
具体的には、最初に、ターゲット識別子を自然言語の理解と生成に最適化された生成モデルと効果的に整列させる構造化された自然言語識別子(SID)を構築します。
さらに、微調整されたターゲット差別を可能にする生成セマンティック検証(GSV)戦略を導入します。
さらに、私たちの知る限り、Semcoreは、生成クロスモーダル検索内のテキストから画像への検索タスクの両方を同時に検討する最初のフレームワークです。
広範な実験は、私たちのフレームワークが最先端の生成クロスモーダル検索方法よりも優れていることを示しています。
特に、Semcoreはベンチマークデータセット全体で大幅な改善を達成し、テキストからイメージの検索の場合、Recall@1で平均8.65ポイント増加します。

要約(オリジナル)

Cross-modal retrieval (CMR) is a fundamental task in multimedia research, focused on retrieving semantically relevant targets across different modalities. While traditional CMR methods match text and image via embedding-based similarity calculations, recent advancements in pre-trained generative models have established generative retrieval as a promising alternative. This paradigm assigns each target a unique identifier and leverages a generative model to directly predict identifiers corresponding to input queries without explicit indexing. Despite its great potential, current generative CMR approaches still face semantic information insufficiency in both identifier construction and generation processes. To address these limitations, we propose a novel unified Semantic-enhanced generative Cross-mOdal REtrieval framework (SemCORE), designed to unleash the semantic understanding capabilities in generative cross-modal retrieval task. Specifically, we first construct a Structured natural language IDentifier (SID) that effectively aligns target identifiers with generative models optimized for natural language comprehension and generation. Furthermore, we introduce a Generative Semantic Verification (GSV) strategy enabling fine-grained target discrimination. Additionally, to the best of our knowledge, SemCORE is the first framework to simultaneously consider both text-to-image and image-to-text retrieval tasks within generative cross-modal retrieval. Extensive experiments demonstrate that our framework outperforms state-of-the-art generative cross-modal retrieval methods. Notably, SemCORE achieves substantial improvements across benchmark datasets, with an average increase of 8.65 points in Recall@1 for text-to-image retrieval.

arxiv情報

著者 Haoxuan Li,Yi Bin,Yunshan Ma,Guoqing Wang,Yang Yang,See-Kiong Ng,Tat-Seng Chua
発行日 2025-04-17 17:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.MM パーマリンク