Tune without Validation: Searching for Learning Rate and Weight Decay on Training Sets

要約

検証セットを使用せずに学習率と重み減衰を調整するパイプラインである Tune without Validation (Twin) を紹介します。
私たちは、仮説空間における学習フェーズに関する最近の理論的フレームワークを活用して、どのようなハイパーパラメータ (HP) の組み合わせがより良い一般化をもたらすかを予測するヒューリスティックを考案します。
Twin は、早期/非早期停止スケジューラーに従ってトライアルのグリッド検索を実行し、トレーニング損失の観点から最良の結果が得られる領域をセグメント化します。
これらの試験の中で、重みノルムは一般化の予測と強い相関があります。
Twin の有効性を評価するために、20 の画像分類データセットに対して広範な実験を実行し、畳み込みモデル、変換モデル、フィードフォワード モデルを含むディープ ネットワークのいくつかのファミリーをトレーニングしました。
サンプル数が少ないシナリオを強調して、ゼロからトレーニングして微調整する場合の適切な HP の選択を示します。

要約(オリジナル)

We introduce Tune without Validation (Twin), a pipeline for tuning learning rate and weight decay without validation sets. We leverage a recent theoretical framework concerning learning phases in hypothesis space to devise a heuristic that predicts what hyper-parameter (HP) combinations yield better generalization. Twin performs a grid search of trials according to an early-/non-early-stopping scheduler and then segments the region that provides the best results in terms of training loss. Among these trials, the weight norm strongly correlates with predicting generalization. To assess the effectiveness of Twin, we run extensive experiments on 20 image classification datasets and train several families of deep networks, including convolutional, transformer, and feed-forward models. We demonstrate proper HP selection when training from scratch and fine-tuning, emphasizing small-sample scenarios.

arxiv情報

著者 Lorenzo Brigato,Stavroula Mougiakakou
発行日 2024-03-08 18:57:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク