要約
既知の概念の新しい構成に一般化する学習表現は、人間と機械の認識の間のギャップを埋めるために重要です。
顕著な取り組みの 1 つは、オブジェクト中心の表現を学習することであり、これは構成的な一般化を可能にするものであると広く推測されています。
しかし、構成的一般化に関する原則的な理論的または経験的理解が不足しているため、この推測がいつ真実になるかは不明のままです。
この研究では、識別可能性理論のレンズを通して、オブジェクト中心の表現に対して構成的一般化がいつ保証されるかを調査します。
我々は、デコーダの構造的仮定を満たし、エンコーダとデコーダの一貫性を強制するオートエンコーダが、おそらく構成的に一般化するオブジェクト中心の表現を学習することを示します。
合成画像データの実験を通じて理論的結果を検証し、仮定の実際的な関連性を強調します。
要約(オリジナル)
Learning representations that generalize to novel compositions of known concepts is crucial for bridging the gap between human and machine perception. One prominent effort is learning object-centric representations, which are widely conjectured to enable compositional generalization. Yet, it remains unclear when this conjecture will be true, as a principled theoretical or empirical understanding of compositional generalization is lacking. In this work, we investigate when compositional generalization is guaranteed for object-centric representations through the lens of identifiability theory. We show that autoencoders that satisfy structural assumptions on the decoder and enforce encoder-decoder consistency will learn object-centric representations that provably generalize compositionally. We validate our theoretical result and highlight the practical relevance of our assumptions through experiments on synthetic image data.
arxiv情報
著者 | Thaddäus Wiedemer,Jack Brady,Alexander Panfilov,Attila Juhos,Matthias Bethge,Wieland Brendel |
発行日 | 2024-11-12 15:34:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google