要約
オブジェクトに関する視覚世界の構造化表現を学習すると、現在の機械学習モデルの一般化能力が大幅に向上することが期待されます。
この目的を達成するための最近の取り組みでは、有望な経験的進歩が示されていますが、教師なしオブジェクト中心の表現学習がいつ可能になるかについての理論的説明はまだ不足しています。
したがって、既存のオブジェクト中心の手法が成功した理由を理解し、理論に基づいた新しい手法を設計することは依然として困難です。
現在の研究では、オブジェクト中心の表現が教師なしで学習できる可能性がある場合を分析します。
この目的を達成するために、最初に、いくつかのオブジェクトで構成されるシーンの生成プロセスに関する 2 つの仮定を導入します。これらを構成性と既約性と呼びます。
この生成プロセスの下で、オブジェクト間に依存関係が存在する場合でも、グラウンドトゥルースのオブジェクト表現が可逆的かつ合成推論モデルによって識別できることを証明します。
私たちは合成データの実験を通じて結果を経験的に検証します。
最後に、モデルの構成性と可逆性、およびそれらの経験的識別可能性との間の密接な対応を示すことにより、私たちの理論が既存のオブジェクト中心モデルの予測力を保持しているという証拠を提供します。
要約(オリジナル)
Learning structured representations of the visual world in terms of objects promises to significantly improve the generalization abilities of current machine learning models. While recent efforts to this end have shown promising empirical progress, a theoretical account of when unsupervised object-centric representation learning is possible is still lacking. Consequently, understanding the reasons for the success of existing object-centric methods as well as designing new theoretically grounded methods remains challenging. In the present work, we analyze when object-centric representations can provably be learned without supervision. To this end, we first introduce two assumptions on the generative process for scenes comprised of several objects, which we call compositionality and irreducibility. Under this generative process, we prove that the ground-truth object representations can be identified by an invertible and compositional inference model, even in the presence of dependencies between objects. We empirically validate our results through experiments on synthetic data. Finally, we provide evidence that our theory holds predictive power for existing object-centric models by showing a close correspondence between models’ compositionality and invertibility and their empirical identifiability.
arxiv情報
著者 | Jack Brady,Roland S. Zimmermann,Yash Sharma,Bernhard Schölkopf,Julius von Kügelgen,Wieland Brendel |
発行日 | 2023-05-23 16:44:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google