Bridging the Empirical-Theoretical Gap in Neural Network Formal Language Learning Using Minimum Description Length

要約

ニューラル ネットワークは、多くのタスクに対して適切な近似を提供しますが、たとえ理論的研究によってそのような完璧な解決策が特定のアーキテクチャで表現できることが示された場合でも、完全な一般化には常に到達できません。
形式言語学習のタスクを使用して、私たちは 1 つの単純な形式言語に焦点を当て、理論的に正しい解決策が実際には一般的に使用される目的の最適化ではないことを示します。たとえ、常識によれば単純な重みと優れた結果が得られるはずの正則化手法を使用した場合でも、
一般化 (L1、L2) またはその他のメタヒューリスティック (早期停止、ドロップアウト)。
ただし、標準ターゲットを最小記述長目標 (MDL) に置き換えると、最適な正しいソリューションが得られます。

要約(オリジナル)

Neural networks offer good approximation to many tasks but consistently fail to reach perfect generalization, even when theoretical work shows that such perfect solutions can be expressed by certain architectures. Using the task of formal language learning, we focus on one simple formal language and show that the theoretically correct solution is in fact not an optimum of commonly used objectives — even with regularization techniques that according to common wisdom should lead to simple weights and good generalization (L1, L2) or other meta-heuristics (early-stopping, dropout). However, replacing standard targets with the Minimum Description Length objective (MDL) results in the correct solution being an optimum.

arxiv情報

著者 Nur Lan,Emmanuel Chemla,Roni Katzir
発行日 2024-02-15 15:25:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL パーマリンク