Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement

要約

解きほぐされた表現学習は、観察されたデータ内の固有の要素を抽出することを目的としています。
これらの表現を教師なしで因数分解することは特に困難であり、通常は調整された損失関数または特定の構造設計が必要です。
この論文では、新しい視点とフレームワークを導入し、交差注意を伴う拡散モデルが強力な誘導バイアスとして機能し、もつれの解けた表現の学習を促進できることを実証します。
我々は、画像を概念トークンのセットにエンコードし、それらを画像再構成のための潜在拡散の条件として扱うことを提案します。この場合、概念トークンに対する相互注意を使用して、エンコーダと拡散の間の相互作用を橋渡しします。
このフレームワークは、追加の正則化を行わずに、ベンチマーク データセットで優れたもつれ解除パフォーマンスを実現し、複雑な設計を備えた以前のすべての手法を上回ります。
私たちは包括的なアブレーション研究と視覚化分析を実施し、このモデルの機能を解明しました。
これは、複雑な設計を必要とせず、交差注意による拡散モデルの強力なもつれを解く能力を明らかにした最初の研究です。
私たちは、私たちの発見が、より洗練されたデータ分析と理解に向けた、もつれのない表現学習の普及を探求するさらなる研究を刺激することを期待しています。

要約(オリジナル)

Disentangled representation learning strives to extract the intrinsic factors within observed data. Factorizing these representations in an unsupervised manner is notably challenging and usually requires tailored loss functions or specific structural designs. In this paper, we introduce a new perspective and framework, demonstrating that diffusion models with cross-attention can serve as a powerful inductive bias to facilitate the learning of disentangled representations. We propose to encode an image to a set of concept tokens and treat them as the condition of the latent diffusion for image reconstruction, where cross-attention over the concept tokens is used to bridge the interaction between the encoder and diffusion. Without any additional regularization, this framework achieves superior disentanglement performance on the benchmark datasets, surpassing all previous methods with intricate designs. We have conducted comprehensive ablation studies and visualization analysis, shedding light on the functioning of this model. This is the first work to reveal the potent disentanglement capability of diffusion models with cross-attention, requiring no complex designs. We anticipate that our findings will inspire more investigation on exploring diffusion for disentangled representation learning towards more sophisticated data analysis and understanding.

arxiv情報

著者 Tao Yang,Cuiling Lan,Yan Lu,Nanning zheng
発行日 2024-06-12 15:20:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク