PopulAtion Parameter Averaging (PAPA)

要約

アンサンブル手法は複数のモデルの予測を組み合わせてパフォーマンスを向上させますが、推論時に大幅に高い計算コストが必要になります。
これらのコストを回避するために、重みを平均することで複数のニューラル ネットワークを 1 つに結合できます。
ただし、これは通常、アンサンブルよりもパフォーマンスが大幅に低下します。
重み付け平均は、それらを組み合わせることでメリットが得られるほど十分に異なっているが、適切に平均化するには十分に類似している場合にのみ有益です。
この考えに基づいて、アンサンブルの一般性と重み平均の効率を組み合わせた方法である PopulAtion Parameter Averaging (PAPA) を提案します。
PAPA は、多様なモデル (さまざまなデータ順序、拡張、正則化でトレーニングされた) の母集団を活用しながら、ネットワークの重みを母集団の重み平均に向けてゆっくりと押し上げます。
PAPA は平均化とアンサンブル間のパフォーマンスのギャップを削減し、独立したトレーニング (平均化されていない) と比較した場合、モデル母集団の平均精度を CIFAR-10 で最大 0.8%、CIFAR-100 で 1.9%、ImageNet で 1.6% 向上させます。
)モデル。

要約(オリジナル)

Ensemble methods combine the predictions of multiple models to improve performance, but they require significantly higher computation costs at inference time. To avoid these costs, multiple neural networks can be combined into one by averaging their weights. However, this usually performs significantly worse than ensembling. Weight averaging is only beneficial when different enough to benefit from combining them, but similar enough to average well. Based on this idea, we propose PopulAtion Parameter Averaging (PAPA): a method that combines the generality of ensembling with the efficiency of weight averaging. PAPA leverages a population of diverse models (trained on different data orders, augmentations, and regularizations) while slowly pushing the weights of the networks toward the population average of the weights. PAPA reduces the performance gap between averaging and ensembling, increasing the average accuracy of a population of models by up to 0.8% on CIFAR-10, 1.9% on CIFAR-100, and 1.6% on ImageNet when compared to training independent (non-averaged) models.

arxiv情報

著者 Alexia Jolicoeur-Martineau,Emy Gervais,Kilian Fatras,Yan Zhang,Simon Lacoste-Julien
発行日 2023-05-24 15:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク