要約
【タイトル】PopulAtion Parameter Averaging (PAPA)
【要約】
・アンサンブル法は、複数のモデルの予測を組み合わせて性能を向上させるが、推論時には計算コストが著しく増加する。
・このコストを回避するために、ニューラルネットワークを平均化して1つに組み合わせる方法があるが、アンサンブルよりも性能が著しく低下することが多い。
・この問題を解決するために、似たようなウェイトをもった複数のモデルを平均化することで、アンサンブルの汎用性とウェイト平均の効率性を組み合わせたPopulAtion Parameter Averaging(PAPA)という方法を提案する。
・PAPAは、多様なモデルを組み合わせることで、平均項のウェイトでネットワークのウェイトを置き換えることで、アンサンブルとウェイト平均の性能差を減らし、CIFAR-10で平均1.1%、CIFAR-100で2.4%、ImageNetで1.9%のモデル精度向上を実現している。
要約(オリジナル)
Ensemble methods combine the predictions of multiple models to improve performance, but they require significantly higher computation costs at inference time. To avoid these costs, multiple neural networks can be combined into one by averaging their weights (model soups). However, this usually performs significantly worse than ensembling. Weight averaging is only beneficial when weights are similar enough (in weight or feature space) to average well but different enough to benefit from combining them. Based on this idea, we propose PopulAtion Parameter Averaging (PAPA): a method that combines the generality of ensembling with the efficiency of weight averaging. PAPA leverages a population of diverse models (trained on different data orders, augmentations, and regularizations) while occasionally (not too often, not too rarely) replacing the weights of the networks with the population average of the weights. PAPA reduces the performance gap between averaging and ensembling, increasing the average accuracy of a population of models by up to 1.1% on CIFAR-10, 2.4% on CIFAR-100, and 1.9% on ImageNet when compared to training independent (non-averaged) models.
arxiv情報
著者 | Alexia Jolicoeur-Martineau,Emy Gervais,Kilian Fatras,Yan Zhang,Simon Lacoste-Julien |
発行日 | 2023-04-06 14:22:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI