CleanDIFT: Diffusion Features without Noise

要約

大規模な事前トレーニング済み拡散モデルの内部特徴は、最近、幅広い下流タスク用の強力なセマンティック記述子として確立されました。
これらの機能を使用する作品では、一般に、意味論的特徴を取得するためにモデルに画像を渡す前に、画像にノイズを追加する必要があります。これは、ノイズがほとんどまたはまったくない画像が与えられた場合、モデルは最も有用な機能を提供しないためです。
このノイズは、これらの機能の有用性に重大な影響を及ぼし、異なるランダム ノイズとアンサンブルすることによっては修正できないことを示します。
私たちは、拡散バックボーンが高品質でノイズのないセマンティック機能を提供できるようにする、軽量で教師なしの微調整方法を導入することでこの問題に対処します。
これらの機能は、さまざまな抽出設定や下流のタスクにおいて、以前の拡散機能を大幅に上回り、数分の一のコストでアンサンブルベースの方法よりも優れたパフォーマンスを提供することを示します。

要約(オリジナル)

Internal features from large-scale pre-trained diffusion models have recently been established as powerful semantic descriptors for a wide range of downstream tasks. Works that use these features generally need to add noise to images before passing them through the model to obtain the semantic features, as the models do not offer the most useful features when given images with little to no noise. We show that this noise has a critical impact on the usefulness of these features that cannot be remedied by ensembling with different random noises. We address this issue by introducing a lightweight, unsupervised fine-tuning method that enables diffusion backbones to provide high-quality, noise-free semantic features. We show that these features readily outperform previous diffusion features by a wide margin in a wide variety of extraction setups and downstream tasks, offering better performance than even ensemble-based methods at a fraction of the cost.

arxiv情報

著者 Nick Stracke,Stefan Andreas Baumann,Kolja Bauer,Frank Fundel,Björn Ommer
発行日 2024-12-04 16:29:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク