要約
モデル スープは確率的重み平均 (SWA) を拡張し、さまざまなハイパーパラメーターで微調整されたモデルを組み合わせます。
しかし、その採用は、サブセット選択の問題による計算上の課題によって妨げられています。
この論文では、平均化されたアンサンブル ロジットのパフォーマンスを使用してスープのパフォーマンスを近似することにより、モデル スープを高速化することを提案します。
理論的な洞察により、あらゆる混合比にわたるアンサンブル ロジットと重量平均スープの一致が検証されます。
当社のリソース調整スープ作成 (RADIN) プロシージャは、柔軟な評価予算を許可することで際立っており、ユーザーが自分のリソースに合わせて探索の予算を調整できると同時に、以前の貪欲なアプローチ (ImageNet では最大 4%) と比較して、より低い予算でパフォーマンスを向上させることができます。
要約(オリジナル)
Model Soups, extending Stochastic Weights Averaging (SWA), combine models fine-tuned with different hyperparameters. Yet, their adoption is hindered by computational challenges due to subset selection issues. In this paper, we propose to speed up model soups by approximating soups performance using averaged ensemble logits performances. Theoretical insights validate the congruence between ensemble logits and weight averaging soups across any mixing ratios. Our Resource ADjusted soups craftINg (RADIN) procedure stands out by allowing flexible evaluation budgets, enabling users to adjust his budget of exploration adapted to his resources while increasing performance at lower budget compared to previous greedy approach (up to 4% on ImageNet).
arxiv情報
著者 | Thibaut Menes,Olivier Risser-Maroix |
発行日 | 2024-01-31 12:32:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google