要約
深いニューラルネットワーク(DNNS)は、系統的一般化(SG)で苦労しています。
いくつかの研究では、新しいアーキテクチャ、損失関数、またはトレーニング方法論の提案を通じてSGを促進する可能性を評価しています。
ただし、SGの促進におけるデータプロパティのトレーニングの役割に焦点を当てた研究はほとんどありません。
この作業では、マルチモーダル言語モデルのSG能力に対する誘導バイアスとして、特定のデータ分布プロパティの影響を調査します。
この目的のために、3つの異なる特性を研究します。
第一に、トレーニング分布の潜在的な特性がとる可能性のある値の増加としてインスタンス化されたデータの多様性。
第二に、トレーニング中に特定の入力で潜在因子の可能性のある値の数を確率的に制限することを確率的に制限します。
第三に、トレーニング中に特定の潜在因子がランダムに変更される潜在的な介入。
3つの要因すべてがSGを大幅に強化し、多様性が最も影響を受ける特性の精度の89%の絶対的な増加に寄与していることがわかります。
一連の実験を通じて、さまざまな仮説をテストして、これらの特性がSGを促進する理由を理解します。
最後に、トレーニング分布における潜在的属性間の正規化された相互情報(NMI)は、分散除外の一般化を強く予測していることがわかります。
低いNMIがSGを誘導するメカニズムは、表現のジオメトリにあることがわかります。
特に、NMIは、モデルの神経表現(すなわち、並列神経ベクターでコーディングされた入力特徴)に、類推による推論能力に関連する特性においてより並列性を誘導することがわかります。
要約(オリジナル)
Deep neural networks (DNNs) struggle at systematic generalization (SG). Several studies have evaluated the possibility to promote SG through the proposal of novel architectures, loss functions or training methodologies. Few studies, however, have focused on the role of training data properties in promoting SG. In this work, we investigate the impact of certain data distributional properties, as inductive biases for the SG ability of a multi-modal language model. To this end, we study three different properties. First, data diversity, instantiated as an increase in the possible values a latent property in the training distribution may take. Second, burstiness, where we probabilistically restrict the number of possible values of latent factors on particular inputs during training. Third, latent intervention, where a particular latent factor is altered randomly during training. We find that all three factors significantly enhance SG, with diversity contributing an 89% absolute increase in accuracy in the most affected property. Through a series of experiments, we test various hypotheses to understand why these properties promote SG. Finally, we find that Normalized Mutual Information (NMI) between latent attributes in the training distribution is strongly predictive of out-of-distribution generalization. We find that a mechanism by which lower NMI induces SG is in the geometry of representations. In particular, we find that NMI induces more parallelism in neural representations (i.e., input features coded in parallel neural vectors) of the model, a property related to the capacity of reasoning by analogy.
arxiv情報
著者 | Felipe del Río,Alain Raymond-Sáez,Daniel Florea,Rodrigo Toro Icarte,Julio Hurtado,Cristián Buc Calderón,Álvaro Soto |
発行日 | 2025-03-04 18:33:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google