Direct Ascent Synthesis: Revealing Hidden Generative Capabilities in Discriminative Models

要約

識別モデルには本質的に強力な生成能力が含まれており、識別アーキテクチャと生成アーキテクチャの根本的な区別に挑戦することを実証します。
私たちの方法であるDirect Ascent Synthesis(DAS)は、CLIPモデル表現のマルチ解像度の最適化を通じてこれらの潜在能力を明らかにしています。
従来の反転の試みは敵対的なパターンを生成しますが、DASは複数の空間スケール(1×1〜224×224)にわたって最適化を分解することにより高品質の画像合成を達成し、追加のトレーニングを必要としません。
このアプローチは、テキストからイメージの生成からスタイルの転送まで、多様なアプリケーションを可能にするだけでなく、自然画像統計($ 1/f^2 $スペクトル)を維持し、生成を非偏った敵対パターンから導きます。
我々の結果は、標準的な識別モデルが以前に認識されていたよりも実質的に豊富な生成知識をエンコードし、モデルの解釈可能性と敵対的な例と自然画像合成の関係に関する新しい視点を提供することを示しています。

要約(オリジナル)

We demonstrate that discriminative models inherently contain powerful generative capabilities, challenging the fundamental distinction between discriminative and generative architectures. Our method, Direct Ascent Synthesis (DAS), reveals these latent capabilities through multi-resolution optimization of CLIP model representations. While traditional inversion attempts produce adversarial patterns, DAS achieves high-quality image synthesis by decomposing optimization across multiple spatial scales (1×1 to 224×224), requiring no additional training. This approach not only enables diverse applications — from text-to-image generation to style transfer — but maintains natural image statistics ($1/f^2$ spectrum) and guides the generation away from non-robust adversarial patterns. Our results demonstrate that standard discriminative models encode substantially richer generative knowledge than previously recognized, providing new perspectives on model interpretability and the relationship between adversarial examples and natural image synthesis.

arxiv情報

著者 Stanislav Fort,Jonathan Whitaker
発行日 2025-02-11 18:27:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク