要約
私たちは、大規模言語モデル (LLM) のコンテキストで限られた計算量とメモリ予算の下で良好な精度を提供できるパラメーター効率の良い微調整 (PEFT) 手法を研究します。
我々は、$\textit{low-rank}$ コンポーネントと $\textit{highly-sparse}$ コンポーネントを一連のコンポーネント上で共同トレーニングするロバストな主成分分析 (PCA) にヒントを得たロバスト アダプテーション (RoSA) と呼ばれる新しい PEFT 手法を紹介します。
フルファインチューニング (FFT) ソリューションのパフォーマンスを効率的に近似するために、事前トレーニングされた重みを固定しました。
小学校の算数や SQL クエリの生成など、優れたパフォーマンスを得るには微調整が必要な一連の困難な生成タスク全体で、同じパラメーター バジェットで RoSA が LoRA と純粋なスパースの微調整の両方を上回るパフォーマンスを示すことを示しました。
当社は、特にメモリ効率と計算効率の高いトレーニングを可能にするスパース GPU カーネルの形式で、トレーニング アルゴリズムを補完する RoSA のシステム サポートを提供します。
私たちのコードは $\href{https://github.com/IST-DASLab/RoSA}{\text{github ページ}}$ で利用可能になります。
要約(オリジナル)
We investigate parameter-efficient fine-tuning (PEFT) methods that can provide good accuracy under limited computational and memory budgets in the context of large language models (LLMs). We present a new PEFT method called Robust Adaptation (RoSA) inspired by robust principal component analysis (PCA) that jointly trains $\textit{low-rank}$ and $\textit{highly-sparse}$ components on top of a set of fixed pretrained weights to efficiently approximate the performance of a full-fine-tuning (FFT) solution. Across a series of challenging generative tasks such as grade-school math and SQL query generation, which require fine-tuning for good performance, we show that RoSA outperforms both LoRA and pure sparse fine-tuning, at the same parameter budget. We provide system support for RoSA to complement the training algorithm, specifically in the form of sparse GPU kernels which enable memory- and computationally-efficient training. Our code will be made available at $\href{https://github.com/IST-DASLab/RoSA}{\text{our github page}}$.
arxiv情報
著者 | Mahdi Nikdan,Soroush Tabesh,Dan Alistarh |
発行日 | 2024-01-11 18:47:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google