Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models

要約

画像検索は、マルチメディアおよびコンピュータ ビジョンにおいて極めて重要なタスクであり、インターネット検索から医療診断に至るまで、さまざまな領域にわたってアプリケーションを見つけます。
従来の画像検索システムは、テキストまたは視覚的なクエリを受け入れ、データベースから最上位の関連性のある候補結果を取得することによって動作します。
ただし、一般的な方法は 1 回のターン手順に依存することが多く、不正確な可能性やリコールが制限される可能性があります。
これらの方法は、語彙の不一致や意味上のギャップなどの課題にも直面しており、全体的な有効性が制限されています。
これらの問題に対処するために、マルチターン設定でのユーザーの関連性フィードバックに基づいてクエリを調整できる対話型画像検索システムを提案します。
このシステムには、ビジョン言語モデル (VLM) ベースの画像キャプショナが組み込まれており、テキストベースのクエリの品質が向上し、反復ごとにより多くの情報を含むクエリが生成されます。
さらに、大規模言語モデル (LLM) ベースのノイズ除去機能を導入して、テキストベースのクエリ拡張を改良し、キャプション モデルによって生成される画像説明の不正確さを軽減します。
システムを評価するために、MSR-VTT ビデオ検索データセットを画像検索タスクに適応させて新しいデータセットをキュレートし、クエリごとに複数の関連するグラウンド トゥルース画像を提供します。
包括的な実験を通じて、ベースライン手法に対する提案システムの有効性を検証し、再現率の点で 10\% という顕著な改善という最先端のパフォーマンスを達成しました。
私たちの貢献には、革新的なインタラクティブな画像検索システムの開発、LLM ベースのデノイザーの統合、綿密に設計された評価データセットのキュレーション、徹底的な実験検証が含まれます。

要約(オリジナル)

Image search stands as a pivotal task in multimedia and computer vision, finding applications across diverse domains, ranging from internet search to medical diagnostics. Conventional image search systems operate by accepting textual or visual queries, retrieving the top-relevant candidate results from the database. However, prevalent methods often rely on single-turn procedures, introducing potential inaccuracies and limited recall. These methods also face the challenges, such as vocabulary mismatch and the semantic gap, constraining their overall effectiveness. To address these issues, we propose an interactive image retrieval system capable of refining queries based on user relevance feedback in a multi-turn setting. This system incorporates a vision language model (VLM) based image captioner to enhance the quality of text-based queries, resulting in more informative queries with each iteration. Moreover, we introduce a large language model (LLM) based denoiser to refine text-based query expansions, mitigating inaccuracies in image descriptions generated by captioning models. To evaluate our system, we curate a new dataset by adapting the MSR-VTT video retrieval dataset to the image retrieval task, offering multiple relevant ground truth images for each query. Through comprehensive experiments, we validate the effectiveness of our proposed system against baseline methods, achieving state-of-the-art performance with a notable 10\% improvement in terms of recall. Our contributions encompass the development of an innovative interactive image retrieval system, the integration of an LLM-based denoiser, the curation of a meticulously designed evaluation dataset, and thorough experimental validation.

arxiv情報

著者 Hongyi Zhu,Jia-Hong Huang,Stevan Rudinac,Evangelos Kanoulas
発行日 2024-04-29 14:46:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク