IRGen: Generative Modeling for Image Retrieval


生成モデリングは自然言語処理とコンピューター ビジョンで広く普及していますが、画像検索への応用は未開発のままです。
私たちのフレームワークである IRGen は、エンドツーエンドの微分可能な検索を可能にする統合モデルであり、直接最適化により優れたパフォーマンスを実現します。
IRGen の開発中、私たちは効率的かつ効果的な検索を可能にするために、画像を非常に短い一連の意味単位に変換するという重要な技術的課題に取り組んでいます。
経験的実験により、私たちのモデルは、一般的に使用される 3 つのベンチマークよりも大幅な改善をもたらすことが実証されています。たとえば、同等の再現率 @ 10 スコアを持つショップ内データセットの精度 @ 10 において、最良のベースライン手法よりも 22.9\% 高いことがわかります。


While generative modeling has been ubiquitous in natural language processing and computer vision, its application to image retrieval remains unexplored. In this paper, we recast image retrieval as a form of generative modeling by employing a sequence-to-sequence model, contributing to the current unified theme. Our framework, IRGen, is a unified model that enables end-to-end differentiable search, thus achieving superior performance thanks to direct optimization. While developing IRGen we tackle the key technical challenge of converting an image into quite a short sequence of semantic units in order to enable efficient and effective retrieval. Empirical experiments demonstrate that our model yields significant improvement over three commonly used benchmarks, for example, 22.9\% higher than the best baseline method in precision@10 on In-shop dataset with comparable recall@10 score.


著者 Yidan Zhang,Ting Zhang,Dong Chen,Yujing Wang,Qi Chen,Xing Xie,Hao Sun,Weiwei Deng,Qi Zhang,Fan Yang,Mao Yang,Qingmin Liao,Baining Guo
発行日 2023-06-28 13:28:06+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.CV パーマリンク