A Minimum Description Length Approach to Regularization in Neural Networks

要約

最先端のニューラルネットワークは、多くの問題に対する顕著な解決策になるように訓練することができます。
しかし、これらのアーキテクチャは象徴的で完璧な解決策を表現できますが、訓練されたモデルは代わりに近似に到達することがよくあります。
正規化方法の選択が重要な役割を果たしていることを示します。標準的な正規化($ l_1 $、$ l_2 $、またはなし)で正式な言語で訓練された場合、表現力豊かなアーキテクチャは、正しい解決策に収束することに失敗するだけでなく、完全な初期化から積極的に押し出されます。
対照的に、モデルの複雑さとデータ適合性のバランスをとるために最小説明長(MDL)原理を適用すると、理論的に根拠のある正則化方法が得られます。
MDLを使用して、最適化アルゴリズムとは無関係に、近似で完全なソリューションが選択されます。
MDLは、既存の正規化手法とは異なり、適切な帰納的バイアスを導入して、過剰適合と一般化を効果的にカウンターし、促進することを提案します。

要約(オリジナル)

State-of-the-art neural networks can be trained to become remarkable solutions to many problems. But while these architectures can express symbolic, perfect solutions, trained models often arrive at approximations instead. We show that the choice of regularization method plays a crucial role: when trained on formal languages with standard regularization ($L_1$, $L_2$, or none), expressive architectures not only fail to converge to correct solutions but are actively pushed away from perfect initializations. In contrast, applying the Minimum Description Length (MDL) principle to balance model complexity with data fit provides a theoretically grounded regularization method. Using MDL, perfect solutions are selected over approximations, independently of the optimization algorithm. We propose that unlike existing regularization techniques, MDL introduces the appropriate inductive bias to effectively counteract overfitting and promote generalization.

arxiv情報

著者 Matan Abudy,Orr Well,Emmanuel Chemla,Roni Katzir,Nur Lan
発行日 2025-05-19 17:34:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク