要約
構成一般化(おなじみのコンポーネントの新しい組み合わせに正しく対応する能力)は、インテリジェントな行動の礎石であると考えられています。
構造的に構造化された(例:disentangled)表現は、この能力をサポートしています。
ただし、組成一般化の出現に十分な条件は不明のままです。
このギャップに対処するために、固定された構造的に構造化された表現を持つカーネルモデルの組成一般化の理論を提示します。
これにより、一般化に対するデータ統計のトレーニングの影響を特徴付けるための扱いやすいフレームワークが提供されます。
これらのモデルは、トレーニング中に見られるコンポーネントの各組み合わせに値を割り当てる関数に限定されており、これらの値(「結合ごとの添加剤」)を要約することがわかります。
これは、構成的に構造化されたカーネルモデルのセットに基本的な制限を課します。
彼らが原則として学ぶことができる組成タスクでさえ、トレーニングデータのバイアスから生じる構成一般化(記憶漏れとショートカットバイアス)の新しい故障モードを特定します。
最後に、私たちの理論を経験的に検証し、同様に構造化されたデータを持つ一連の構成タスクで訓練された深いニューラルネットワーク(畳み込みネットワーク、残留ネットワーク、視覚変圧器)の動作をキャプチャすることを示します。
最終的に、この作業では、トレーニングデータの統計構造が構成の一般化にどのように影響するかを調べ、深い学習モデルの故障モードを特定して修正する方法に影響を与えます。
要約(オリジナル)
Compositional generalization (the ability to respond correctly to novel combinations of familiar components) is thought to be a cornerstone of intelligent behavior. Compositionally structured (e.g. disentangled) representations support this ability; however, the conditions under which they are sufficient for the emergence of compositional generalization remain unclear. To address this gap, we present a theory of compositional generalization in kernel models with fixed, compositionally structured representations. This provides a tractable framework for characterizing the impact of training data statistics on generalization. We find that these models are limited to functions that assign values to each combination of components seen during training, and then sum up these values (‘conjunction-wise additivity’). This imposes fundamental restrictions on the set of tasks compositionally structured kernel models can learn, in particular preventing them from transitively generalizing equivalence relations. Even for compositional tasks that they can learn in principle, we identify novel failure modes in compositional generalization (memorization leak and shortcut bias) that arise from biases in the training data. Finally, we empirically validate our theory, showing that it captures the behavior of deep neural networks (convolutional networks, residual networks, and Vision Transformers) trained on a set of compositional tasks with similarly structured data. Ultimately, this work examines how statistical structure in the training data can affect compositional generalization, with implications for how to identify and remedy failure modes in deep learning models.
arxiv情報
著者 | Samuel Lippl,Kim Stachenfeld |
発行日 | 2025-04-08 15:07:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google