要約
構成的汎化は人工知能において極めて重要な特性であり、モデルが既知の構成要素の新しい組み合わせを扱えるようにする。ほとんどの深層学習モデルにはこの能力が欠けているが、特定のタスクで成功するモデルもあり、支配条件の存在を示唆している。本稿では、ニューラルネットワークにおける構成的汎化の必要十分条件を導出する。概念的には、(i)計算グラフが真の構成構造と一致すること、(ii)構成要素が訓練において十分な情報をエンコードすること、を必要とする。この条件は数学的証明によって裏付けられている。この基準は、アーキテクチャー設計、正則化、訓練データ特性の側面を組み合わせたものである。注意深く設計された最小限の例により、この条件を直感的に理解することができる。また、訓練前の構成的汎化を評価するための条件の可能性についても議論する。本研究は、ニューラルネットワークにおける構成的汎化に関する基礎的な理論研究である。
要約(オリジナル)
Compositional generalization is a crucial property in artificial intelligence, enabling models to handle novel combinations of known components. While most deep learning models lack this capability, certain models succeed in specific tasks, suggesting the existence of governing conditions. This paper derives a necessary and sufficient condition for compositional generalization in neural networks. Conceptually, it requires that (i) the computational graph matches the true compositional structure, and (ii) components encode just enough information in training. The condition is supported by mathematical proofs. This criterion combines aspects of architecture design, regularization, and training data properties. A carefully designed minimal example illustrates an intuitive understanding of the condition. We also discuss the potential of the condition for assessing compositional generalization before training. This work is a fundamental theoretical study of compositional generalization in neural networks.
arxiv情報
著者 | Yuanpeng Li |
発行日 | 2025-05-05 13:13:46+00:00 |
arxivサイト | arxiv_id(pdf) |