A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence

要約

テキストから画像への拡散モデルは、高品質の画像の生成と編集において大幅な進歩を遂げました。
その結果、分類、セマンティックセグメンテーション、様式化などの下流タスクのために単一の画像を理解して処理するための拡散モデルの機能の能力が数多くのアプローチで調査されてきました。
ただし、これらの特徴が複数の異なる画像やオブジェクトにわたって何を明らかにするかについては、ほとんど知られていません。
この研究では、セマンティックで密な対応のために安定拡散 (SD) 機能を活用し、単純な後処理で SD 機能が SOTA 表現と定量的に同様に実行できることを発見しました。
興味深いことに、定性分析により、SD 特徴は、最近リリースされた DINOv2 などの既存の表現学習機能と比べて、非常に異なる特性を持っていることが明らかになりました。DINOv2 は、まばらではあるが正確な一致を提供しますが、SD 特徴は、高品質の空間情報を提供しますが、場合によっては不正確な意味的一致を提供します。
これら 2 つの特徴の単純な融合が驚くほどうまく機能し、これらの融合された特徴の最近傍を使用したゼロショット評価により、ベンチマーク データセット (SPair-71k など) での最先端の手法よりも大幅なパフォーマンス向上が得られることを実証します。
、PF-パスカル、およびTSS。
また、これらの対応により、2 つのイメージ内のインスタンスの交換などの興味深いアプリケーションが可能になることも示します。

要約(オリジナル)

Text-to-image diffusion models have made significant advances in generating and editing high-quality images. As a result, numerous approaches have explored the ability of diffusion model features to understand and process single images for downstream tasks, e.g., classification, semantic segmentation, and stylization. However, significantly less is known about what these features reveal across multiple, different images and objects. In this work, we exploit Stable Diffusion (SD) features for semantic and dense correspondence and discover that with simple post-processing, SD features can perform quantitatively similar to SOTA representations. Interestingly, the qualitative analysis reveals that SD features have very different properties compared to existing representation learning features, such as the recently released DINOv2: while DINOv2 provides sparse but accurate matches, SD features provide high-quality spatial information but sometimes inaccurate semantic matches. We demonstrate that a simple fusion of these two features works surprisingly well, and a zero-shot evaluation using nearest neighbors on these fused features provides a significant performance gain over state-of-the-art methods on benchmark datasets, e.g., SPair-71k, PF-Pascal, and TSS. We also show that these correspondences can enable interesting applications such as instance swapping in two images.

arxiv情報

著者 Junyi Zhang,Charles Herrmann,Junhwa Hur,Luisa Polania Cabrera,Varun Jampani,Deqing Sun,Ming-Hsuan Yang
発行日 2023-05-24 16:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク