VQA4CIR: Boosting Composed Image Retrieval with Visual Question Answering

要約

合成画像検索 (CIR) では進歩が見られましたが、失敗した検索結果の一定の割合が相対的なキャプションと一致しないことが経験的にわかっています。
この問題に対処するために、この作業では CIR のパフォーマンスを向上させる Visual Question Answering (VQA) の観点を提供します。
結果として得られる VQA4CIR は後処理アプローチであり、既存の CIR メソッドに直接接続できます。
VQA4CIR は、CIR 法による Top-C 検索画像を前提として、相対キャプションと矛盾する失敗検索結果の悪影響を軽減することを目的としています。
取得した画像が相対キャプションと矛盾していることを見つけるために、「QA 生成から VQA」への自己検証パイプラインを利用します。
QA 生成の場合、LLM (LLaMA など) を微調整して、各相対キャプションから質問と回答のペアをいくつか生成することをお勧めします。
次に、LVLM (LLaVA など) を微調整して VQA モデルを取得します。
取得した画像と質問を VQA モデルに入力すると、VQA による回答が QA ペアの回答と一致しない場合に、相対的なキャプションと一致しない画像を見つけることができます。
したがって、一貫性のない取得画像のランクを変更することで、CIR パフォーマンスを向上させることができます。
実験結果は、私たちが提案した方法が、CIRR および Fashion-IQ データセットに対して最先端の CIR 方法よりも優れていることを示しています。

要約(オリジナル)

Albeit progress has been made in Composed Image Retrieval (CIR), we empirically find that a certain percentage of failure retrieval results are not consistent with their relative captions. To address this issue, this work provides a Visual Question Answering (VQA) perspective to boost the performance of CIR. The resulting VQA4CIR is a post-processing approach and can be directly plugged into existing CIR methods. Given the top-C retrieved images by a CIR method, VQA4CIR aims to decrease the adverse effect of the failure retrieval results being inconsistent with the relative caption. To find the retrieved images inconsistent with the relative caption, we resort to the ‘QA generation to VQA’ self-verification pipeline. For QA generation, we suggest fine-tuning LLM (e.g., LLaMA) to generate several pairs of questions and answers from each relative caption. We then fine-tune LVLM (e.g., LLaVA) to obtain the VQA model. By feeding the retrieved image and question to the VQA model, one can find the images inconsistent with relative caption when the answer by VQA is inconsistent with the answer in the QA pair. Consequently, the CIR performance can be boosted by modifying the ranks of inconsistently retrieved images. Experimental results show that our proposed method outperforms state-of-the-art CIR methods on the CIRR and Fashion-IQ datasets.

arxiv情報

著者 Chun-Mei Feng,Yang Bai,Tao Luo,Zhen Li,Salman Khan,Wangmeng Zuo,Xinxing Xu,Rick Siow Mong Goh,Yong Liu
発行日 2023-12-19 15:56:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク