MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions

要約

画像検索、つまり参照画像から目的の画像を見つけることには、本質的に豊富で多面的な検索意図が含まれており、画像ベースの手段のみを使用してキャプチャすることは困難です。
最近の取り組みでは、テキストによる指示を活用して、ユーザーが検索意図をより自由に表現できるようにしています。
ただし、既存の研究は主に、視覚的に類似している画像ペア、および/または事前定義された関係の小さなセットによって特徴付けられる画像ペアに焦点を当てています。
この論文の中心的なテーマは、テキスト命令により、視覚的な類似性を超えたより豊かな関係を持つ画像を取得できるということです。
これを示すために、オープンエンド命令をサポートする一連の自己教師あり画像検索モデルである MagicLens を紹介します。
MagicLens は、重要な新しい洞察に基づいて構築されています。同じ Web ページ上に自然に出現する画像のペアには、広範な暗黙の関係 (例: の内部ビュー) が含まれており、大規模なマルチモーダル モデル (
LMM)とラージ言語モデル(LLM)。
Web からマイニングされた豊富な意味関係を持つ 3,670 万個のトリプレット (クエリ画像、命令、ターゲット画像) でトレーニングされた MagicLens は、さまざまな画像検索タスクの 8 つのベンチマークで、従来の最先端 (SOTA) 手法と同等以上の結果を達成します。

驚くべきことに、複数のベンチマークでモデル サイズが 50 倍小さいにもかかわらず、以前の SOTA よりも優れたパフォーマンスを発揮します。
140 万枚の画像の未見のコーパスに対する人間による追加分析により、MagicLens によってサポートされる検索意図の多様性がさらに実証されました。

要約(オリジナル)

Image retrieval, i.e., finding desired images given a reference image, inherently encompasses rich, multi-faceted search intents that are difficult to capture solely using image-based measures. Recent work leverages text instructions to allow users to more freely express their search intents. However, existing work primarily focuses on image pairs that are visually similar and/or can be characterized by a small set of pre-defined relations. The core thesis of this paper is that text instructions can enable retrieving images with richer relations beyond visual similarity. To show this, we introduce MagicLens, a series of self-supervised image retrieval models that support open-ended instructions. MagicLens is built on a key novel insight: image pairs that naturally occur on the same web pages contain a wide range of implicit relations (e.g., inside view of), and we can bring those implicit relations explicit by synthesizing instructions via large multimodal models (LMMs) and large language models (LLMs). Trained on 36.7M (query image, instruction, target image) triplets with rich semantic relations mined from the web, MagicLens achieves comparable or better results on eight benchmarks of various image retrieval tasks than prior state-of-the-art (SOTA) methods. Remarkably, it outperforms previous SOTA but with a 50X smaller model size on multiple benchmarks. Additional human analyses on a 1.4M-image unseen corpus further demonstrate the diversity of search intents supported by MagicLens.

arxiv情報

著者 Kai Zhang,Yi Luan,Hexiang Hu,Kenton Lee,Siyuan Qiao,Wenhu Chen,Yu Su,Ming-Wei Chang
発行日 2024-03-28 17:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, cs.MM パーマリンク