Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach

要約

このペーパーでは、対話型のテキストから画像への検索タスク内の対話形式のコンテキスト クエリの問題を主に扱います。
私たちの方法論である PlugIR は、LLM の一般的な命令追従機能を 2 つの方法で積極的に利用します。
まず、対話形式のコンテキストを再定式化することにより、既存の視覚対話データに対する検索モデルを微調整する必要がなくなり、任意のブラックボックス モデルの使用が可能になります。
次に、現在のコンテキストにおける検索候補画像の情報に基づいて、ターゲット画像の属性に関する非冗長な質問を生成する LLM 質問器を構築します。
このアプローチにより、生成された質問のノイズと冗長性の問題が軽減されます。
私たちの方法論を超えて、対話型検索システムの包括的な評価のために、新しい評価指標である Best log Rank Integral (BRI) を提案します。
PlugIR は、さまざまなベンチマークでゼロショット ベースラインと微調整されたベースラインの両方と比較して優れたパフォーマンスを示します。
さらに、PlugIR を構成する 2 つの方法論は、さまざまな状況で一緒にまたは個別に柔軟に適用できます。
私たちのコードは https://github.com/Saehyung-Lee/PlugIR で入手できます。

要約(オリジナル)

In this paper, we primarily address the issue of dialogue-form context query within the interactive text-to-image retrieval task. Our methodology, PlugIR, actively utilizes the general instruction-following capability of LLMs in two ways. First, by reformulating the dialogue-form context, we eliminate the necessity of fine-tuning a retrieval model on existing visual dialogue data, thereby enabling the use of any arbitrary black-box model. Second, we construct the LLM questioner to generate non-redundant questions about the attributes of the target image, based on the information of retrieval candidate images in the current context. This approach mitigates the issues of noisiness and redundancy in the generated questions. Beyond our methodology, we propose a novel evaluation metric, Best log Rank Integral (BRI), for a comprehensive assessment of the interactive retrieval system. PlugIR demonstrates superior performance compared to both zero-shot and fine-tuned baselines in various benchmarks. Additionally, the two methodologies comprising PlugIR can be flexibly applied together or separately in various situations. Our codes are available at https://github.com/Saehyung-Lee/PlugIR.

arxiv情報

著者 Saehyung Lee,Sangwon Yu,Junsung Park,Jihun Yi,Sungroh Yoon
発行日 2024-06-05 16:09:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク