SD4Match: Learning to Prompt Stable Diffusion Model for Semantic Matching

要約

この論文では、画像ペア間で意味的に類似したキーポイントを照合するという課題に取り組みます。
既存の研究では、安定拡散 (SD) 内の UNet の中間出力が、そのようなマッチング タスクの堅牢な画像特徴マップとして機能できることが示されています。
私たちは、基本的なプロンプト調整技術を採用することで、安定拡散の固有の可能性を活用でき、その結果、以前のアプローチに比べて精度が大幅に向上することを実証します。
さらに、入力画像ペアの局所的な詳細に基づいてプロンプトを条件付ける新しい条件付きプロンプト モジュールを導入し、パフォーマンスのさらなる向上につながります。
私たちはこのアプローチを SD4Match (Stable Diffusion for Semantic Matching の略) と名付けています。
PF-Pascal、PF-Willow、および SPair-71k データセットに対する SD4Match の包括的な評価により、SD4Match がこれらすべてのデータセットにわたって精度において新しいベンチマークを設定することが示されました。
特に、SD4Match は、困難な SPair-71k データセットにおいて、以前の最先端技術を 12 パーセントポイント上回りました。

要約(オリジナル)

In this paper, we address the challenge of matching semantically similar keypoints across image pairs. Existing research indicates that the intermediate output of the UNet within the Stable Diffusion (SD) can serve as robust image feature maps for such a matching task. We demonstrate that by employing a basic prompt tuning technique, the inherent potential of Stable Diffusion can be harnessed, resulting in a significant enhancement in accuracy over previous approaches. We further introduce a novel conditional prompting module that conditions the prompt on the local details of the input image pairs, leading to a further improvement in performance. We designate our approach as SD4Match, short for Stable Diffusion for Semantic Matching. Comprehensive evaluations of SD4Match on the PF-Pascal, PF-Willow, and SPair-71k datasets show that it sets new benchmarks in accuracy across all these datasets. Particularly, SD4Match outperforms the previous state-of-the-art by a margin of 12 percentage points on the challenging SPair-71k dataset.

arxiv情報

著者 Xinghui Li,Jingyi Lu,Kai Han,Victor Prisacariu
発行日 2023-10-26 16:58:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク