要約
アンサンブル法は複数のモデルの予測を組み合わせて性能を向上させるが、推論時の計算コストが著しく高くなる。このようなコストを回避するために、複数のニューラルネットワークをその重みを平均化することで1つにまとめることができる。しかし、これは通常、アンサンブルよりも性能が著しく低下する。重みの平均化が有益なのは、それらを組み合わせることで利益を得るのに十分異なるが、うまく平均化するのに十分似ている場合だけである。この考えに基づき、我々はPopulAtion Parameter Averaging (PAPA)を提案する:これはアンサンブルの一般性と重み平均の効率性を組み合わせた手法である。PAPAは、(異なるデータ次数、補強、正則化で訓練された)多様なモデルの母集団を活用しながら、ネットワークの重みを母集団の平均値に向けてゆっくりと押し上げる。我々はまた、重みを連続的に平均するのではなく、稀に平均するPAPAの変種(PAPA-all、PAPA-2)を提案する。PAPAは平均化とアンサンブルの性能差を縮め、独立した(平均化しない)モデルを学習した場合と比較して、モデルの集団の平均精度をCIFAR-10で最大0.8%、CIFAR-100で最大1.9%、ImageNetで最大1.6%向上させる。
要約(オリジナル)
Ensemble methods combine the predictions of multiple models to improve performance, but they require significantly higher computation costs at inference time. To avoid these costs, multiple neural networks can be combined into one by averaging their weights. However, this usually performs significantly worse than ensembling. Weight averaging is only beneficial when different enough to benefit from combining them, but similar enough to average well. Based on this idea, we propose PopulAtion Parameter Averaging (PAPA): a method that combines the generality of ensembling with the efficiency of weight averaging. PAPA leverages a population of diverse models (trained on different data orders, augmentations, and regularizations) while slowly pushing the weights of the networks toward the population average of the weights. We also propose PAPA variants (PAPA-all, and PAPA-2) that average weights rarely rather than continuously; all methods increase generalization, but PAPA tends to perform best. PAPA reduces the performance gap between averaging and ensembling, increasing the average accuracy of a population of models by up to 0.8% on CIFAR-10, 1.9% on CIFAR-100, and 1.6% on ImageNet when compared to training independent (non-averaged) models.
arxiv情報
著者 | Alexia Jolicoeur-Martineau,Emy Gervais,Kilian Fatras,Yan Zhang,Simon Lacoste-Julien |
発行日 | 2024-05-06 14:32:35+00:00 |
arxivサイト | arxiv_id(pdf) |