Dodging the Double Descent in Deep Neural Networks

要約

ディープ ラーニング モデルの最適なサイズを見つけることは非常に現実的であり、特に省エネルギー スキームにおいては幅広い影響があります。
ごく最近、予想外の現象である「二重降下」がディープラーニング コミュニティの注目を集めました。
モデルのサイズが大きくなるにつれて、パフォーマンスは最初に悪化し、その後改善に戻ります。
高度な一般化を維持するための最適なモデルのサイズについて深刻な問題が生じます。モデルは十分に過剰にパラメータ化する必要がありますが、あまりにも多くのパラメータを追加するとトレーニング リソースが無駄になります。
効率的な方法で、最良のトレードオフを見つけることは可能ですか?
私たちの研究は、二重降下現象が学習問題の適切な条件付けによって回避できる可能性があることを示していますが、最終的な答えはまだ見つかっていません.
単純な $\ell_2$ 正則化がすでにそのような観点に積極的に貢献しているため、複雑なシナリオでは適切な正則化を使用して二重降下を回避する希望があることを経験的に観察しています。

要約(オリジナル)

Finding the optimal size of deep learning models is very actual and of broad impact, especially in energy-saving schemes. Very recently, an unexpected phenomenon, the “double descent”, has caught the attention of the deep learning community. As the model’s size grows, the performance gets first worse, and then goes back to improving. It raises serious questions about the optimal model’s size to maintain high generalization: the model needs to be sufficiently over-parametrized, but adding too many parameters wastes training resources. Is it possible to find, in an efficient way, the best trade-off? Our work shows that the double descent phenomenon is potentially avoidable with proper conditioning of the learning problem, but a final answer is yet to be found. We empirically observe that there is hope to dodge the double descent in complex scenarios with proper regularization, as a simple $\ell_2$ regularization is already positively contributing to such a perspective.

arxiv情報

著者 Victor Quétu,Enzo Tartaglione
発行日 2023-03-01 16:18:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク