CoLLM: A Large Language Model for Composed Image Retrieval

要約

構成された画像検索(CIR)は、マルチモーダルクエリに基づいて画像を取得することを目的とする複雑なタスクです。
典型的なトレーニングデータは、参照画像を含むトリプレット、望ましい変更のテキストの説明、および獲得に時間がかかり、時間がかかるターゲット画像で構成されています。
CIRデータセットの希少性により、合成トリプレットを利用したり、遍在するWebがクロールした画像キャプションペアを使用してビジョン言語モデル(VLMS)を活用したりするゼロショットアプローチにつながりました。
ただし、これらの方法には大きな制限があります。合成トリプレットは、限られたスケール、多様性の欠如、不自然な修正テキストに苦しんでいますが、画像キャプションのペアは、トリプレットデータがないためにマルチモーダルクエリの学習を埋め込むジョイントを妨害します。
さらに、既存のアプローチは、ビジョンと言語のモダリティの洗練された融合と理解を要求する複雑で微妙な修正テキストと格闘しています。
これらの制限に効果的に対処するワンストップフレームワークであるCollmを提示します。
私たちのアプローチは、画像キャプションのペアからフライでトリプレットを生成し、手動注釈なしで監視されたトレーニングを可能にします。
大規模な言語モデル(LLM)を活用して、参照画像と変更テキストの共同埋め込みを生成し、より深いマルチモーダル融合を促進します。
さらに、3.4mのサンプルで構成される大規模なデータセットであるマルチテキストCIR(MTCIR)を導入し、既存のCIRベンチマーク(CIRRおよびファッションIQ)を改良して評価の信頼性を高めます。
実験結果は、COLLMが複数のCIRベンチマークと設定にわたって最先端のパフォーマンスを達成することを示しています。
MTCIRは競争力のある結果をもたらし、パフォーマンスを最大15%改善します。
洗練されたベンチマークは、CIRモデルのより信頼性の高い評価メトリックを提供し、この重要な分野の進歩に貢献しています。

要約(オリジナル)

Composed Image Retrieval (CIR) is a complex task that aims to retrieve images based on a multimodal query. Typical training data consists of triplets containing a reference image, a textual description of desired modifications, and the target image, which are expensive and time-consuming to acquire. The scarcity of CIR datasets has led to zero-shot approaches utilizing synthetic triplets or leveraging vision-language models (VLMs) with ubiquitous web-crawled image-caption pairs. However, these methods have significant limitations: synthetic triplets suffer from limited scale, lack of diversity, and unnatural modification text, while image-caption pairs hinder joint embedding learning of the multimodal query due to the absence of triplet data. Moreover, existing approaches struggle with complex and nuanced modification texts that demand sophisticated fusion and understanding of vision and language modalities. We present CoLLM, a one-stop framework that effectively addresses these limitations. Our approach generates triplets on-the-fly from image-caption pairs, enabling supervised training without manual annotation. We leverage Large Language Models (LLMs) to generate joint embeddings of reference images and modification texts, facilitating deeper multimodal fusion. Additionally, we introduce Multi-Text CIR (MTCIR), a large-scale dataset comprising 3.4M samples, and refine existing CIR benchmarks (CIRR and Fashion-IQ) to enhance evaluation reliability. Experimental results demonstrate that CoLLM achieves state-of-the-art performance across multiple CIR benchmarks and settings. MTCIR yields competitive results, with up to 15% performance improvement. Our refined benchmarks provide more reliable evaluation metrics for CIR models, contributing to the advancement of this important field.

arxiv情報

著者 Chuong Huynh,Jinyu Yang,Ashish Tawari,Mubarak Shah,Son Tran,Raffay Hamid,Trishul Chilimbi,Abhinav Shrivastava
発行日 2025-03-25 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR パーマリンク