Model Merging by Uncertainty-Based Gradient Matching

要約

異なるデータセットでトレーニングされたモデルは、パラメーターの加重平均によって結合できますが、なぜそれが機能するのでしょうか?また、いつ失敗する可能性があるのでしょうか?
ここでは、加重平均の不正確性を勾配の不一致に関連付け、不一致を削減することでパフォーマンスを向上させるための新しい不確実性ベースのスキームを提案します。
この関係により、平均化、タスク算術、フィッシャー加重平均などの他のスキームにおける暗黙の仮定も明らかになります。
私たちの新しい方法は、パフォーマンスとハイパーパラメーターに対する堅牢性の両方の点で、大規模な言語モデルとビジョン トランスフォーマーに一貫した改善をもたらします。

要約(オリジナル)

Models trained on different datasets can be merged by a weighted-averaging of their parameters, but why does it work and when can it fail? Here, we connect the inaccuracy of weighted-averaging to mismatches in the gradients and propose a new uncertainty-based scheme to improve the performance by reducing the mismatch. The connection also reveals implicit assumptions in other schemes such as averaging, task arithmetic, and Fisher-weighted averaging. Our new method gives consistent improvements for large language models and vision transformers, both in terms of performance and robustness to hyperparameters.

arxiv情報

著者 Nico Daheim,Thomas Möllenhoff,Edoardo Maria Ponti,Iryna Gurevych,Mohammad Emtiyaz Khan
発行日 2023-10-19 15:02:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク