要約
指数移動平均 (EMA) は、ディープ ニューラル ネットワーク (DNN) 最適化において余分なコストをかけずに、より優れた一般化を実現するフラット最適化を学習するために広く使用されている重み平均 (WA) 正則化です。
既存の WA メソッドは、より優れた平坦性を達成したにもかかわらず、最終的なパフォーマンスが低下したり、余分なテスト時間の計算が必要になったりする可能性があります。
この研究では、たった 1 行の変更、つまりスイッチ EMA (SEMA) と呼ばれる各エポックの後に EMA パラメーターを元のモデルに切り替えることで、EMA の可能性を最大限に引き出します。
理論的および経験的側面の両方から、SEMA が DNN がフラットネスとシャープネスの間でより適切なトレードオフを実現する一般化最適化に到達するのに役立つことを実証します。
SEMA の有効性を検証するために、画像分類、自己教師あり学習、物体検出とセグメンテーション、画像生成、ビデオ予測、属性回帰、言語などの視覚および言語データセットに対して、識別タスク、生成タスク、回帰タスクによる比較実験を実施します。
モデリング。
一般的なオプティマイザーとネットワークを使用した総合的な結果は、SEMA がパフォーマンスを向上させ、収束速度を向上させることにより、DNN トレーニングのフリーランチであることを示しています。
要約(オリジナル)
Exponential Moving Average (EMA) is a widely used weight averaging (WA) regularization to learn flat optima for better generalizations without extra cost in deep neural network (DNN) optimization. Despite achieving better flatness, existing WA methods might fall into worse final performances or require extra test-time computations. This work unveils the full potential of EMA with a single line of modification, i.e., switching the EMA parameters to the original model after each epoch, dubbed as Switch EMA (SEMA). From both theoretical and empirical aspects, we demonstrate that SEMA can help DNNs to reach generalization optima that better trade-off between flatness and sharpness. To verify the effectiveness of SEMA, we conduct comparison experiments with discriminative, generative, and regression tasks on vision and language datasets, including image classification, self-supervised learning, object detection and segmentation, image generation, video prediction, attribute regression, and language modeling. Comprehensive results with popular optimizers and networks show that SEMA is a free lunch for DNN training by improving performances and boosting convergence speeds.
arxiv情報
著者 | Siyuan Li,Zicheng Liu,Juanxi Tian,Ge Wang,Zedong Wang,Weiyang Jin,Di Wu,Cheng Tan,Tao Lin,Yang Liu,Baigui Sun,Stan Z. Li |
発行日 | 2024-02-14 15:28:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google