要約
ニューラル ネットワークは、多くのタスクに対して適切な近似を提供しますが、たとえ理論的研究によってそのような完璧な解決策が特定のアーキテクチャで表現できることが示された場合でも、完全な一般化には常に到達できません。
形式言語学習のタスクを使用して、私たちは 1 つの単純な形式言語に焦点を当て、理論的に正しい解決策が実際には一般的に使用される目的の最適化ではないことを示します。たとえ、常識によれば単純な重みと優れた結果が得られるはずの正則化手法を使用した場合でも、
一般化 (L1、L2) またはその他のメタヒューリスティック (早期停止、ドロップアウト)。
一方、標準ターゲットを最小記述長目標 (MDL) に置き換えると、最適な正しいソリューションが得られます。
要約(オリジナル)
Neural networks offer good approximation to many tasks but consistently fail to reach perfect generalization, even when theoretical work shows that such perfect solutions can be expressed by certain architectures. Using the task of formal language learning, we focus on one simple formal language and show that the theoretically correct solution is in fact not an optimum of commonly used objectives — even with regularization techniques that according to common wisdom should lead to simple weights and good generalization (L1, L2) or other meta-heuristics (early-stopping, dropout). On the other hand, replacing standard targets with the Minimum Description Length objective (MDL) results in the correct solution being an optimum.
arxiv情報
著者 | Nur Lan,Emmanuel Chemla,Roni Katzir |
発行日 | 2024-06-06 16:16:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google