ToddlerDiffusion: Flash Interpretable Controllable Diffusion Model

要約

拡散ベースの生成モデルは、知覚的に印象的な合成には優れていますが、解釈可能性では課題に直面しています。
この論文では、人間の生成システムにヒントを得た、解釈可能な 2D 拡散画像合成フレームワークである ToddlerDiffusion を紹介します。
不透明なノイズ除去ステップを伴う従来の拡散モデルとは異なり、私たちのアプローチは生成プロセスをより単純で解釈可能な段階に分解します。
輪郭、パレット、詳細なカラー画像を生成します。
これにより、全体的なパフォーマンスが向上するだけでなく、堅牢な編集機能と対話機能も可能になります。
各段階は、安定拡散 (LDM) を超える効率と精度を実現するために細心の注意を払って配合されています。
LSUN-Churches や COCO などのデータセットに対する広範な実験により、当社のアプローチが検証され、既存の手法を常に上回っています。
ToddlerDiffusion は、3.76 倍小さいアーキテクチャで 3 倍高速に動作しながら、LSUN-Churches の LDM パフォーマンスに匹敵する顕著な効率を実現します。
私たちのソースコードは補足資料として提供されており、一般にアクセスできるようになります。

要約(オリジナル)

Diffusion-based generative models excel in perceptually impressive synthesis but face challenges in interpretability. This paper introduces ToddlerDiffusion, an interpretable 2D diffusion image-synthesis framework inspired by the human generation system. Unlike traditional diffusion models with opaque denoising steps, our approach decomposes the generation process into simpler, interpretable stages; generating contours, a palette, and a detailed colored image. This not only enhances overall performance but also enables robust editing and interaction capabilities. Each stage is meticulously formulated for efficiency and accuracy, surpassing Stable-Diffusion (LDM). Extensive experiments on datasets like LSUN-Churches and COCO validate our approach, consistently outperforming existing methods. ToddlerDiffusion achieves notable efficiency, matching LDM performance on LSUN-Churches while operating three times faster with a 3.76 times smaller architecture. Our source code is provided in the supplementary material and will be publicly accessible.

arxiv情報

著者 Eslam Mohamed Bakr,Liangbing Zhao,Vincent Tao Hu,Matthieu Cord,Patrick Perez,Mohamed Elhoseiny
発行日 2023-11-24 15:20:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク