BLoB: Bayesian Low-Rank Adaptation by Backpropagation for Large Language Models

要約

大規模言語モデル (LLM) は、特にデータが限られた下流のドメイン固有のタスクに適応した場合、推論中に過信に悩まされることがよくあります。
以前の研究では、LLM のトレーニング後に近似ベイズ推定を採用することでこの問題に対処し、LLM が不確実性を定量化できるようにしました。
ただし、このようなトレーニング後のアプローチのパフォーマンスは、トレーニング中に学習したパラメーターによって大幅に制限されます。
この論文では、トレーニング後のベイズ化を超えて、微調整プロセス全体を通じて LLM パラメーターの平均と共分散の両方を継続的かつ共同で調整するアルゴリズムである逆伝播によるベイズ低ランク適応 (BLoB) を提案します。
私たちの経験的結果は、分布内データと分布外データの両方で評価した場合の、一般化と不確実性推定の観点から BLoB の有効性を検証します。

要約(オリジナル)

Large Language Models (LLMs) often suffer from overconfidence during inference, particularly when adapted to downstream domain-specific tasks with limited data. Previous work addresses this issue by employing approximate Bayesian estimation after the LLMs are trained, enabling them to quantify uncertainty. However, such post-training approaches’ performance is severely limited by the parameters learned during training. In this paper, we go beyond post-training Bayesianization and propose Bayesian Low-Rank Adaptation by Backpropagation (BLoB), an algorithm that continuously and jointly adjusts both the mean and covariance of LLM parameters throughout the whole fine-tuning process. Our empirical results verify the effectiveness of BLoB in terms of generalization and uncertainty estimation, when evaluated on both in-distribution and out-of-distribution data.

arxiv情報

著者 Yibin Wang,Haizhou Shi,Ligong Han,Dimitris Metaxas,Hao Wang
発行日 2024-06-18 15:15:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク