LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks

要約

現実世界の意思決定における多くの重要なタスクは、校正された不確実性推定値を使用した機械学習アルゴリズムに依存しています。
しかし、現代の手法では、自信過剰で調整されていない予測が生じることがよくあります。
さまざまなアプローチには、認識論的不確実性として知られるモデル自体に関連する不確実性を定量化するために、個別のモデルのアンサンブルをトレーニングすることが含まれます。
明示的な実装では、アンサンブル手法には高い計算コストと高いメモリ要件が伴います。
この特定の課題は、トランスフォーマーなどの最先端のニューラル ネットワークで明らかであり、単一のネットワークですら、コンピューティングとメモリの点ですでに要求が厳しいものになっています。
したがって、個別のアンサンブル メンバーを実際にインスタンス化することなく、アンサンブル モデルをエミュレートする努力が行われます (暗黙的アンサンブルと呼ばれます)。
低ランク適応 (LoRA) に基づいたセルフアテンション ネットワーク用のパラメーター効率の高いディープ アンサンブル手法である LoRA-Ensemble を紹介します。
当初は効率的な LLM 微調整のために開発されましたが、LoRA を暗黙的なアンサンブル アプローチに拡張しました。
すべてのメンバー間で共有される重みを持つ単一の事前トレーニング済み自己注意ネットワークを採用することで、注意予測のためのメンバー固有の低ランク行列をトレーニングします。
私たちの方法は、陽的アンサンブルと比較して優れたキャリブレーションを示し、さまざまな予測タスクおよびデータセットにわたって同等以上の精度を達成します。

要約(オリジナル)

Numerous crucial tasks in real-world decision-making rely on machine learning algorithms with calibrated uncertainty estimates. However, modern methods often yield overconfident and uncalibrated predictions. Various approaches involve training an ensemble of separate models to quantify the uncertainty related to the model itself, known as epistemic uncertainty. In an explicit implementation, the ensemble approach has high computational cost and high memory requirements. This particular challenge is evident in state-of-the-art neural networks such as transformers, where even a single network is already demanding in terms of compute and memory. Consequently, efforts are made to emulate the ensemble model without actually instantiating separate ensemble members, referred to as implicit ensembling. We introduce LoRA-Ensemble, a parameter-efficient deep ensemble method for self-attention networks, which is based on Low-Rank Adaptation (LoRA). Initially developed for efficient LLM fine-tuning, we extend LoRA to an implicit ensembling approach. By employing a single pre-trained self-attention network with weights shared across all members, we train member-specific low-rank matrices for the attention projections. Our method exhibits superior calibration compared to explicit ensembles and achieves similar or better accuracy across various prediction tasks and datasets.

arxiv情報

著者 Michelle Halbheer,Dominik J. Mühlematter,Alexander Becker,Dominik Narnhofer,Helge Aasen,Konrad Schindler,Mehmet Ozgur Turkoglu
発行日 2024-10-10 15:55:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク