要約
拡散モデルは、逆の問題の処理において顕著な能力を示しており、高品質の後サンプリングベースのソリューションを提供しています。
大きな進歩にもかかわらず、条件付けされた合成の採用方法に関しては、基本的なトレードオフが続きます。トレーニングベースの方法は高品質の結果を達成し、ゼロショットアプローチはこれを柔軟性で取引します。
この作業では、両方の最高の世界を組み合わせたフレームワークを紹介します。これは、監視されたアプローチの強力なパフォーマンスとゼロショット方法の柔軟性です。
これは、劣化オペレーターを非脱asに直接シームレスに統合する新しい建築設計によって達成されます。
各ブロックで、提案されたアーキテクチャは、ネットワークのアクティベーションと条件に劣化オペレーターを適用し、注意メカニズムを使用して出力を条件にし、高性能を維持しながら多様な劣化シナリオへの適応を可能にします。
私たちの研究は、提案されたアーキテクチャの多様性を示しており、一般的なMMSE推定器、後部サンプラー、または神経後部の主成分推定器として機能します。
この柔軟性により、幅広いダウンストリームタスクが可能になり、フレームワークの幅広い適用性が強調されています。
脱aserネットワークの提案された変更は、多用途で正確で計算上の効率的なソリューションを提供し、複雑な逆問題のための専用ネットワークアーキテクチャの利点を実証します。
FFHQおよびImagenetデータセットの実験結果は、トレーニングベースとゼロショットの両方の代替品を超える最先端の後部サンプリングパフォーマンスを示しています。
要約(オリジナル)
Diffusion Models have demonstrated remarkable capabilities in handling inverse problems, offering high-quality posterior-sampling-based solutions. Despite significant advances, a fundamental trade-off persists, regarding the way the conditioned synthesis is employed: Training-based methods achieve high quality results, while zero-shot approaches trade this with flexibility. This work introduces a framework that combines the best of both worlds — the strong performance of supervised approaches and the flexibility of zero-shot methods. This is achieved through a novel architectural design that seamlessly integrates the degradation operator directly into the denoiser. In each block, our proposed architecture applies the degradation operator on the network activations and conditions the output using the attention mechanism, enabling adaptation to diverse degradation scenarios while maintaining high performance. Our work demonstrates the versatility of the proposed architecture, operating as a general MMSE estimator, a posterior sampler, or a Neural Posterior Principal Component estimator. This flexibility enables a wide range of downstream tasks, highlighting the broad applicability of our framework. The proposed modification of the denoiser network offers a versatile, accurate, and computationally efficient solution, demonstrating the advantages of dedicated network architectures for complex inverse problems. Experimental results on the FFHQ and ImageNet datasets demonstrate state-of-the-art posterior-sampling performance, surpassing both training-based and zero-shot alternatives.
arxiv情報
著者 | Noam Elata,Hyungjin Chung,Jong Chul Ye,Tomer Michaeli,Michael Elad |
発行日 | 2025-04-02 12:40:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google