要約
概念のもつれを解いた表現を学び、目に見えない方法で再構成することは、領域外の状況に一般化するために重要です。
しかし、そのような絡み合いの解消と構成の一般化を可能にする概念の根底にある特性は、依然としてよく理解されていません。
この研究では、「同じ概念の部分は、異なる概念の部分よりも複雑な相互作用がある」という相互作用の非対称性の原理を提案します。
これを、観測データへのジェネレーターマッピング概念の $(n+1)$ 次導関数のブロック対角条件を介して形式化します。ここで、異なる次数の「複雑さ」が異なる $n$ に対応します。
この形式主義を使用して、相互作用の非対称性がもつれの解除と構成の一般化の両方を可能にすることを証明します。
私たちの結果は、オブジェクトの概念を学習するための最近の理論的結果を統合しており、$n\!=\!0$ または $1$ の特殊なケースとして復元されることを示しています。
最大 $n\!=\!2$ までの結果を提供することで、これらの以前の研究をより柔軟なジェネレーター関数に拡張し、同じ証明戦略がより大きな $n$ に一般化すると推測します。
実際、私たちの理論は、概念のもつれを解くために、オートエンコーダーがその潜在能力と、デコード中の概念間の相互作用にペナルティを課すべきであることを示唆しています。
私たちは、デコーダーのアテンションの重みに関する新しい正則化機能を備えた、柔軟な Transformer ベースの VAE を使用したこれらの基準の実装を提案します。
オブジェクトから構成される合成画像データセットに関して、このモデルが、より明示的なオブジェクト中心の事前分布を使用する既存のモデルと同等のオブジェクトのもつれの解除を達成できるという証拠を提供します。
要約(オリジナル)
Learning disentangled representations of concepts and re-composing them in unseen ways is crucial for generalizing to out-of-domain situations. However, the underlying properties of concepts that enable such disentanglement and compositional generalization remain poorly understood. In this work, we propose the principle of interaction asymmetry which states: ‘Parts of the same concept have more complex interactions than parts of different concepts’. We formalize this via block diagonality conditions on the $(n+1)$th order derivatives of the generator mapping concepts to observed data, where different orders of ‘complexity’ correspond to different $n$. Using this formalism, we prove that interaction asymmetry enables both disentanglement and compositional generalization. Our results unify recent theoretical results for learning concepts of objects, which we show are recovered as special cases with $n\!=\!0$ or $1$. We provide results for up to $n\!=\!2$, thus extending these prior works to more flexible generator functions, and conjecture that the same proof strategies generalize to larger $n$. Practically, our theory suggests that, to disentangle concepts, an autoencoder should penalize its latent capacity and the interactions between concepts during decoding. We propose an implementation of these criteria using a flexible Transformer-based VAE, with a novel regularizer on the attention weights of the decoder. On synthetic image datasets consisting of objects, we provide evidence that this model can achieve comparable object disentanglement to existing models that use more explicit object-centric priors.
arxiv情報
著者 | Jack Brady,Julius von Kügelgen,Sébastien Lachapelle,Simon Buchholz,Thomas Kipf,Wieland Brendel |
発行日 | 2024-11-12 13:33:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google