Curriculum Learning with Adam: The Devil Is in the Wrong Details

要約

カリキュラム学習 (CL) では、機械学習モデルは人間と同様に、現在の学習の進行状況に一致するデータからより効率的に学習できる可能性があると仮定しています。
ただし、CL 手法はまだ十分に理解されておらず、特に自然言語処理 (NLP) では限られた成功しか得ていません。
この文書では、その理由を探ります。
多くの最近のカリキュラム手法を再現および拡張する試みから始めましたが、その結果が NLP に適用されると驚くほど脆弱であることがわかりました。
いくつかのシナリオにおけるカリキュラムの(非)効果を深く掘り下げると、その理由がわかります。カリキュラムを人気のある Adam 最適化アルゴリズムと組み合わせて使用​​すると、多くの場合、このアルゴリズムに対して最適とは言えない最適化パラメーターに適応することを学習します。
この現象を説明するために、さまざまな一般的な手作りおよび自動化された CL アプローチを使用したさまざまなケース スタディを多数紹介しますが、そのどれも、適切に選択されたハイパーパラメーターを使用した Adam のみを使用した最適化を上回るパフォーマンスを発揮しないことがわかりました。
このように、私たちの結果は CL 手法が機能する理由の理解に貢献しますが、同時に肯定的な結果を主張する場合には注意を促します。

要約(オリジナル)

Curriculum learning (CL) posits that machine learning models — similar to humans — may learn more efficiently from data that match their current learning progress. However, CL methods are still poorly understood and, in particular for natural language processing (NLP), have achieved only limited success. In this paper, we explore why. Starting from an attempt to replicate and extend a number of recent curriculum methods, we find that their results are surprisingly brittle when applied to NLP. A deep dive into the (in)effectiveness of the curricula in some scenarios shows us why: when curricula are employed in combination with the popular Adam optimisation algorithm, they oftentimes learn to adapt to suboptimally chosen optimisation parameters for this algorithm. We present a number of different case studies with different common hand-crafted and automated CL approaches to illustrate this phenomenon, and we find that none of them outperforms optimisation with only Adam with well-chosen hyperparameters. As such, our results contribute to understanding why CL methods work, but at the same time urge caution when claiming positive results.

arxiv情報

著者 Lucas Weber,Jaap Jumelet,Paul Michel,Elia Bruni,Dieuwke Hupkes
発行日 2023-08-23 15:39:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク