Variational Learning is Effective for Large Deep Networks

要約

変分学習は大規模なニューラル ネットワークには効果がないという一般的な考えに対して、広範な経験的証拠を示します。
改良型変分オンライン Newton (IVON) と呼ばれるオプティマイザーが、GPT-2 や ResNets などの大規模ネットワークを最初からトレーニングする場合、一貫して Adam と同等またはそれを上回るパフォーマンスを示すことを示します。
IVON の計算コストは​​ Adam とほぼ同じですが、予測の不確実性は Adam の方が優れています。
大規模言語モデルでの微調整とモデルのマージを改善し、汎化誤差を正確に予測し、データに対する感度を忠実に推定する、IVON の新しい使用例をいくつか示します。
私たちは、変分学習の有効性を裏付ける圧倒的な証拠を発見しました。

要約(オリジナル)

We give extensive empirical evidence against the common belief that variational learning is ineffective for large neural networks. We show that an optimizer called Improved Variational Online Newton (IVON) consistently matches or outperforms Adam for training large networks such as GPT-2 and ResNets from scratch. IVON’s computational costs are nearly identical to Adam but its predictive uncertainty is better. We show several new use cases of IVON where we improve fine-tuning and model merging in Large Language Models, accurately predict generalization error, and faithfully estimate sensitivity to data. We find overwhelming evidence in support of effectiveness of variational learning.

arxiv情報

著者 Yuesong Shen,Nico Daheim,Bai Cong,Peter Nickl,Gian Maria Marconi,Clement Bazan,Rio Yokota,Iryna Gurevych,Daniel Cremers,Mohammad Emtiyaz Khan,Thomas Möllenhoff
発行日 2024-02-27 16:11:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, math.OC, stat.ML パーマリンク