On Inductive Biases That Enable Generalization of Diffusion Transformers

要約

UNet ベースのデノイザーを使用した拡散モデルの一般化を研究する最近の研究により、幾何学適応型高調波基底を介して表現できる誘導バイアスが明らかになりました。
ただし、実際には、より最近のノイズ除去ネットワークは、多くの場合、拡散トランス (DiT) などのトランスに基づいています。
これにより、変圧器ベースのノイズ除去ネットワークは、ジオメトリ適応型高調波基底によっても表現できる誘導バイアスを示すのでしょうか?という疑問が生じます。
驚いたことに、そうではないことが分かりました。
この不一致は、DiT モデルの適切な一般化につながる可能性のある誘導バイアスの探索を動機付けます。
DiT の極めて重要な注意モジュールを調査すると、注意マップの局所性が一般化と密接に関連していることがわかります。
この発見を検証するために、注意ウィンドウを制限することによって DiT の一般化を変更します。
DiT にローカル アテンション ウィンドウを注入し、汎化の改善を観察します。
さらに、これらのローカル アテンション ウィンドウの配置と効果的なアテンション サイズの両方が重要な要素であることが経験的にわかります。
CelebA、ImageNet、および LSUN データセットの実験結果は、利用可能なトレーニング データが少ない場合、DiT の帰納的バイアスを強化すると一般化と生成の品質の両方を向上できることを示しています。
ソースコードは紙の出版と同時に公開されます。
プロジェクトページ: dit-generalization.github.io/。

要約(オリジナル)

Recent work studying the generalization of diffusion models with UNet-based denoisers reveals inductive biases that can be expressed via geometry-adaptive harmonic bases. However, in practice, more recent denoising networks are often based on transformers, e.g., the diffusion transformer (DiT). This raises the question: do transformer-based denoising networks exhibit inductive biases that can also be expressed via geometry-adaptive harmonic bases? To our surprise, we find that this is not the case. This discrepancy motivates our search for the inductive bias that can lead to good generalization in DiT models. Investigating the pivotal attention modules of a DiT, we find that locality of attention maps are closely associated with generalization. To verify this finding, we modify the generalization of a DiT by restricting its attention windows. We inject local attention windows to a DiT and observe an improvement in generalization. Furthermore, we empirically find that both the placement and the effective attention size of these local attention windows are crucial factors. Experimental results on the CelebA, ImageNet, and LSUN datasets show that strengthening the inductive bias of a DiT can improve both generalization and generation quality when less training data is available. Source code will be released publicly upon paper publication. Project page: dit-generalization.github.io/.

arxiv情報

著者 Jie An,De Wang,Pengsheng Guo,Jiebo Luo,Alexander Schwing
発行日 2024-10-28 17:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク