ContextBLIP: Doubly Contextual Alignment for Contrastive Image Retrieval from Linguistically Complex Descriptions

要約

文脈記述からの画像検索 (IRCD) は、言語的に複雑なテキストに基づいて、コントラストが最小限の候補のセット内の画像を識別することを目的としています。
VLM は成功しているにもかかわらず、IRCD における人間のパフォーマンスには依然として大きく遅れています。
主な課題は、重要な文脈上の手がかりを 2 つのモダリティで調整することにあります。これらの微妙な手がかりは、複数の対照的な画像の小さな領域やテキストの説明の複雑な言語学の中に隠されています。
これが、私たちが ContextBLIP を提案する動機となっています。ContextBLIP は、IRCD に挑戦するための二重コンテキスト アラインメント スキームに依存する、シンプルでありながら効果的な方法です。
具体的には、1) 私たちのモデルは、マルチスケール アダプター、マッチング損失、およびテキスト ガイド付きマスキング損失で構成されます。
アダプターは、きめの細かい視覚的な手がかりを捕捉することを学習します。
2 つの損失により、アダプターの反復監視が可能になり、主要なテキスト キューに対する単一画像の焦点パッチが徐々に強調表示されます。
このような方法をコンテキスト内調整と呼びます。
2) 次に、ContextBLIP はさらにコンテキスト間エンコーダを使用して候補間の依存関係を学習し、テキストと複数の画像の間の位置合わせを容易にします。
このステップをコンテキスト間調整と呼びます。
その結果、各モダリティに隠されている微妙な手がかりを効果的に調整することができます。
2 つのベンチマークでの実験により、私たちの方法の優位性が示されています。
ContextBLIP では、パラメータが約 7,500 分の 1 少ないにもかかわらず、GPT-4V と同等の結果が得られることがわかりました。

要約(オリジナル)

Image retrieval from contextual descriptions (IRCD) aims to identify an image within a set of minimally contrastive candidates based on linguistically complex text. Despite the success of VLMs, they still significantly lag behind human performance in IRCD. The main challenges lie in aligning key contextual cues in two modalities, where these subtle cues are concealed in tiny areas of multiple contrastive images and within the complex linguistics of textual descriptions. This motivates us to propose ContextBLIP, a simple yet effective method that relies on a doubly contextual alignment scheme for challenging IRCD. Specifically, 1) our model comprises a multi-scale adapter, a matching loss, and a text-guided masking loss. The adapter learns to capture fine-grained visual cues. The two losses enable iterative supervision for the adapter, gradually highlighting the focal patches of a single image to the key textual cues. We term such a way as intra-contextual alignment. 2) Then, ContextBLIP further employs an inter-context encoder to learn dependencies among candidates, facilitating alignment between the text to multiple images. We term this step as inter-contextual alignment. Consequently, the nuanced cues concealed in each modality can be effectively aligned. Experiments on two benchmarks show the superiority of our method. We observe that ContextBLIP can yield comparable results with GPT-4V, despite involving about 7,500 times fewer parameters.

arxiv情報

著者 Honglin Lin,Siyu Li,Guoshun Nan,Chaoyue Tang,Xueting Wang,Jingxin Xu,Rong Yankai,Zhili Zhou,Yutong Gao,Qimei Cui,Xiaofeng Tao
発行日 2024-05-29 16:06:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク