要約
この論文では、潜在拡散による合成画像検索 (CIR) を解決するための新しい拡散ベースのモデル CompoDiff を提案し、モデルをトレーニングするための 1,800 万枚の参照画像、条件、および対応するターゲット画像トリプレットからなる SynthTriplets18M という新しく作成されたデータセットを提示します。
。
CompoDiff と SynthTriplets18M は、データセットの規模が小さいことや条件の種類が限られていることによる一般化性の低さなど、以前の CIR アプローチの欠点に取り組んでいます。
CompoDiff は、FashionIQ、CIRR、CIRCO、GeneCIS を含む 4 つの CIR ベンチマークで新しいゼロショットの最先端を達成するだけでなく、ネガティブ テキストやネガティブ テキストなどのさまざまな条件を受け入れることで、より多用途で制御可能な CIR を可能にします。
画像マスク条件、および複数のクエリ間の重要性の制御性、または既存の CIR 手法では利用できない推論速度とパフォーマンスの間のトレードオフ。
コードとデータセットは https://github.com/navervision/CompoDiff で入手できます。
要約(オリジナル)
This paper proposes a novel diffusion-based model, CompoDiff, for solving Composed Image Retrieval (CIR) with latent diffusion and presents a newly created dataset, named SynthTriplets18M, of 18 million reference images, conditions, and corresponding target image triplets to train the model. CompoDiff and SynthTriplets18M tackle the shortages of the previous CIR approaches, such as poor generalizability due to the small dataset scale and the limited types of conditions. CompoDiff not only achieves a new zero-shot state-of-the-art on four CIR benchmarks, including FashionIQ, CIRR, CIRCO, and GeneCIS, but also enables a more versatile and controllable CIR by accepting various conditions, such as negative text and image mask conditions, and the controllability to the importance between multiple queries or the trade-off between inference speed and the performance which are unavailable with existing CIR methods. The code and dataset are available at https://github.com/navervision/CompoDiff
arxiv情報
著者 | Geonmo Gu,Sanghyuk Chun,Wonjae Kim,HeeJae Jun,Yoohoon Kang,Sangdoo Yun |
発行日 | 2023-10-04 15:54:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google