要約
意味検索は現代のアプリケーションにとって極めて重要であるが、現在の研究ではまだ十分に研究されていない。既存のデータセットは、単一言語、単一画像、単一検索条件に限定されており、画像をキャプションで置き換えた場合でも性能が維持されていることからわかるように、視覚情報の表現能力を十分に活用できていないことが多い。しかし、実用的な検索シナリオでは、複数の画像を含む複数条件のクエリをインターリーブすることが多い。そこで本稿では、インターリーブされた複数条件による意味検索のための初の多言語データセットであるMERITを紹介する。MERITは、7つの異なる商品カテゴリをカバーする、5言語、135,000商品、320,000クエリから構成される。MERITを用いた広範な実験により、既存のモデルの限界が明らかになった。それは、クエリ中の特定の条件要素を無視する一方で、大域的な意味情報のみに注目するという点である。その結果、我々はCoralを提案する。Coralは、きめ細かな条件要素を保持するための埋め込み再構成と、包括的な大域的意味情報を抽出するための対照学習を統合することで、事前に訓練されたMLLMを適応させる新しい微調整フレームワークである。実験により、CoralはMERITにおいて従来のアプローチと比較して45.9%の性能向上を達成し、8つの確立された検索ベンチマークで検証された強力な汎化能力を持つことが実証された。この成果は、新しいデータセット、既存のアプローチにおける重大な限界の特定、革新的な微調整フレームワークなど、今後のインターリーブ型マルチ条件付き意味検索研究の基盤を確立するものである。
要約(オリジナル)
Semantic retrieval is crucial for modern applications yet remains underexplored in current research. Existing datasets are limited to single languages, single images, or singular retrieval conditions, often failing to fully exploit the expressive capacity of visual information as evidenced by maintained performance when images are replaced with captions. However, practical retrieval scenarios frequently involve interleaved multi-condition queries with multiple images. Hence, this paper introduces MERIT, the first multilingual dataset for interleaved multi-condition semantic retrieval, comprising 320,000 queries with 135,000 products in 5 languages, covering 7 distinct product categories. Extensive experiments on MERIT identify existing models’s limitation: focusing solely on global semantic information while neglecting specific conditional elements in queries. Consequently, we propose Coral, a novel fine-tuning framework that adapts pre-trained MLLMs by integrating embedding reconstruction to preserve fine-grained conditional elements and contrastive learning to extract comprehensive global semantics. Experiments demonstrate that Coral achieves a 45.9% performance improvement over conventional approaches on MERIT, with strong generalization capabilities validated across 8 established retrieval benchmarks. Collectively, our contributions – a novel dataset, identification of critical limitations in existing approaches, and an innovative fine-tuning framework – establish a foundation for future research in interleaved multi-condition semantic retrieval.
arxiv情報
著者 | Wei Chow,Yuan Gao,Linfeng Li,Xian Wang,Qi Xu,Hang Song,Lingdong Kong,Ran Zhou,Yi Zeng,Yidong Cai,Botian Jiang,Shilin Xu,Jiajun Zhang,Minghui Qiu,Xiangtai Li,Tianshu Yang,Siliang Tang,Juncheng Li |
発行日 | 2025-06-03 17:59:14+00:00 |
arxivサイト | arxiv_id(pdf) |