The Quest of Finding the Antidote to Sparse Double Descent

要約

エネルギー効率の高いスキームでは、深層学習モデルの最適なサイズを見つけることが非常に重要であり、広範囲に影響を与えます。
一方、最近の研究では、スパース二重降下という予期せぬ現象が報告されています。モデルのスパース性が増加すると、パフォーマンスは最初に悪化し、次に改善し、最後に悪化します。
このような非単調な動作は、高いパフォーマンスを維持するための最適なモデルのサイズについて深刻な疑問を引き起こします。モデルは十分にオーバーパラメータ化する必要がありますが、パラメータが多すぎるとトレーニング リソースが無駄になります。
この論文では、最適なトレードオフを効率的に見つけることを目的としています。
より正確には、スパース二重降下の発生に取り組み、それを回避するためのいくつかの解決策を提示します。
まず、単純な $\ell_2$ 正則化手法がこの現象を軽減するのに役立ちますが、パフォーマンスとスパース性の妥協が犠牲になることを示します。
この問題を克服するために、知識を抽出することで学生モデルを正規化する学習スキームを導入します。
典型的な画像分類設定を使用して達成された実験結果によって裏付けられ、このアプローチがそのような現象の回避につながることを示します。

要約(オリジナル)

In energy-efficient schemes, finding the optimal size of deep learning models is very important and has a broad impact. Meanwhile, recent studies have reported an unexpected phenomenon, the sparse double descent: as the model’s sparsity increases, the performance first worsens, then improves, and finally deteriorates. Such a non-monotonic behavior raises serious questions about the optimal model’s size to maintain high performance: the model needs to be sufficiently over-parametrized, but having too many parameters wastes training resources. In this paper, we aim to find the best trade-off efficiently. More precisely, we tackle the occurrence of the sparse double descent and present some solutions to avoid it. Firstly, we show that a simple $\ell_2$ regularization method can help to mitigate this phenomenon but sacrifices the performance/sparsity compromise. To overcome this problem, we then introduce a learning scheme in which distilling knowledge regularizes the student model. Supported by experimental results achieved using typical image classification setups, we show that this approach leads to the avoidance of such a phenomenon.

arxiv情報

著者 Victor Quétu,Marta Milovanović
発行日 2023-08-31 09:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク