Online Loss Function Learning

要約

損失関数学習は、機械学習モデルの損失関数を設計するという重要なタスクを自動化することを目的とした新しいメタ学習パラダイムです。
損失関数学習の既存の手法は有望な結果を示しており、多くの場合、モデルのトレーニング ダイナミクスと最終的な推論パフォーマンスが向上します。
ただし、これらの手法の重大な制限は、損失関数がオフライン形式でメタ学習されることです。この場合、メタ目標はトレーニングの最初の数ステップのみを考慮し、これは通常のトレーニングに使用される期間よりも大幅に短いです。
ディープニューラルネットワークのトレーニング。
これにより、トレーニングの開始時には良好なパフォーマンスを発揮するものの、トレーニングの終了時にはパフォーマンスが低下する損失関数に大きな偏りが生じます。
この問題に対処するために、基本モデルのパラメーターを更新するたびに損失関数をオンラインで適応的に更新するための新しい損失関数学習手法を提案します。
実験結果は、私たちが提案した方法が、さまざまな範囲のニューラルネットワークアーキテクチャおよびデータセット上でクロスエントロピー損失およびオフライン損失関数学習技術を常に上回るパフォーマンスを示すことを示しています。

要約(オリジナル)

Loss function learning is a new meta-learning paradigm that aims to automate the essential task of designing a loss function for a machine learning model. Existing techniques for loss function learning have shown promising results, often improving a model’s training dynamics and final inference performance. However, a significant limitation of these techniques is that the loss functions are meta-learned in an offline fashion, where the meta-objective only considers the very first few steps of training, which is a significantly shorter time horizon than the one typically used for training deep neural networks. This causes significant bias towards loss functions that perform well at the very start of training but perform poorly at the end of training. To address this issue we propose a new loss function learning technique for adaptively updating the loss function online after each update to the base model parameters. The experimental results show that our proposed method consistently outperforms the cross-entropy loss and offline loss function learning techniques on a diverse range of neural network architectures and datasets.

arxiv情報

著者 Christian Raymond,Qi Chen,Bing Xue,Mengjie Zhang
発行日 2024-01-17 10:36:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク