要約
Vision-Language Models(VLMS)は、テキストから画像の検索ベンチマークで強力なパフォーマンスを示しています。
ただし、この成功を実際のアプリケーションに埋めることは依然として課題です。
実際には、人間の検索行動が1ショットのアクションになることはめったにありません。
代わりに、それは多くの場合、手がかりを念頭に置いた多ラウンドのプロセスです。つまり、曖昧な回想からターゲットイメージの鮮明な精神的表現に至るまでの精神的なイメージです。
このギャップに動機付けられて、私たちはメンタルイメージ取得(miR)のタスクを研究します。これは、ユーザーが画像検索エンジンとのマルチラウンドの相互作用を通じて精神的に想定された画像の検索を改良する現実的ではないが未解決の設定をターゲットにしています。
インタラクティブ検索の成功の中心は、ユーザーに明確で実用的なフィードバックを提供するマシンの機能です。
ただし、既存の方法は、ユーザーがクエリを改良するのが曖昧、誤解を招く、または効果的でない可能性がある間接的または抽象的な言葉によるフィードバックに依存しています。
これを克服するために、拡散ベースの画像生成を活用して、各ラウンドでのAIシステムの理解を明示的に具体化する生成的多ラウンド検索パラダイムであるGenirを提案します。
これらの合成視覚表現は、明確で解釈可能なフィードバックを提供し、ユーザーがクエリを直感的かつ効果的に改良できるようにします。
さらに、高品質のマルチラウンドMIRデータセットを生成するために、完全に自動化されたパイプラインを導入します。
実験結果は、GenirがMIRシナリオで既存のインタラクティブな方法を大幅に上回ることを示しています。
この作業は、データセットと効果的な生成検索方法を備えた新しいタスクを確立し、この方向で将来の研究の基盤を提供します。
要約(オリジナル)
Vision-language models (VLMs) have shown strong performance on text-to-image retrieval benchmarks. However, bridging this success to real-world applications remains a challenge. In practice, human search behavior is rarely a one-shot action. Instead, it is often a multi-round process guided by clues in mind, that is, a mental image ranging from vague recollections to vivid mental representations of the target image. Motivated by this gap, we study the task of Mental Image Retrieval (MIR), which targets the realistic yet underexplored setting where users refine their search for a mentally envisioned image through multi-round interactions with an image search engine. Central to successful interactive retrieval is the capability of machines to provide users with clear, actionable feedback; however, existing methods rely on indirect or abstract verbal feedback, which can be ambiguous, misleading, or ineffective for users to refine the query. To overcome this, we propose GenIR, a generative multi-round retrieval paradigm leveraging diffusion-based image generation to explicitly reify the AI system’s understanding at each round. These synthetic visual representations provide clear, interpretable feedback, enabling users to refine their queries intuitively and effectively. We further introduce a fully automated pipeline to generate a high-quality multi-round MIR dataset. Experimental results demonstrate that GenIR significantly outperforms existing interactive methods in the MIR scenario. This work establishes a new task with a dataset and an effective generative retrieval method, providing a foundation for future research in this direction.
arxiv情報
著者 | Diji Yang,Minghao Liu,Chung-Hsiang Lo,Yi Zhang,James Davis |
発行日 | 2025-06-06 16:28:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google