要約
異なるデータセットでトレーニングされたモデルは、パラメーターの加重平均によって結合できますが、なぜそれが機能するのでしょうか?また、いつ失敗する可能性があるのでしょうか?
ここでは、加重平均の不正確性を勾配の不一致に関連付け、不一致を削減することでパフォーマンスを向上させるための新しい不確実性ベースのスキームを提案します。
この関係により、平均化、タスク算術、フィッシャー加重平均などの他のスキームにおける暗黙の仮定も明らかになります。
私たちの新しい方法は、パフォーマンスとハイパーパラメーターに対する堅牢性の両方の点で、大規模な言語モデルとビジョン トランスフォーマーに一貫した改善をもたらします。
要約(オリジナル)
Models trained on different datasets can be merged by a weighted-averaging of their parameters, but why does it work and when can it fail? Here, we connect the inaccuracy of weighted-averaging to mismatches in the gradients and propose a new uncertainty-based scheme to improve the performance by reducing the mismatch. The connection also reveals implicit assumptions in other schemes such as averaging, task arithmetic, and Fisher-weighted averaging. Our new method gives consistent improvements for large language models and vision transformers, both in terms of performance and robustness to hyperparameters.
arxiv情報
著者 | Nico Daheim,Thomas Möllenhoff,Edoardo Maria Ponti,Iryna Gurevych,Mohammad Emtiyaz Khan |
発行日 | 2023-10-19 15:02:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google