要約
低ランク適応 (LoRA) は、大規模言語モデル (LLM) をパラメーター効率よく微調整するための一般的な手法です。
私たちは、さまざまな LoRA モジュールをどのようにマージしてスキル構成を実現できるかを研究しています。つまり、各スキルが 1 つの LoRA に由来する複数のスキルを組み合わせる必要があるターゲット タスクで、マージされたモデルのパフォーマンスをテストします。
この設定は、対象タスクのトレーニング データを取得することが難しい場合や、複数のスキルに分解できる場合に適しています。
まず、スキル構成の領域で研究できる実際に発生するユースケースを特定します。
難しい数学の文章問題をコードで解決したり、独自のマニュアルやドメインに特化したコーパスに関する質問に答えるボットを作成したりできます。
私たちの主な貢献は、異なるスキルで個別にトレーニングされた LoRA に最適な重み付けを行う LoRA の連結 (CAT) が、既存のモデルおよびデータの結合技術よりも優れていることを示すことです。
たとえば、算数の文章問題では、CAT がこれらの方法をそれぞれ平均 43% と 12% 上回っています。
したがって、このホワイトペーパーでは、構成タスクを解決する効率的な方法としてモデルのマージを提唱し、CAT がシンプルでコンピューティングに適した効果的な手順であることを強調します。
私たちの知る限り、これはバイナリスキル構成タスクにおいてデータ混合よりもモデルマージの優位性を実証した最初の研究です。
コードとデータは https://github.com/aksh555/LoRA-Soups で入手できます。
要約(オリジナル)
Low-Rank Adaptation (LoRA) is a popular technique for parameter-efficient fine-tuning of Large Language Models (LLMs). We study how different LoRA modules can be merged to achieve skill composition — testing the performance of the merged model on a target task that involves combining multiple skills, each skill coming from a single LoRA. This setup is favorable when it is difficult to obtain training data for the target task and when it can be decomposed into multiple skills. First, we identify practically occurring use-cases that can be studied under the realm of skill composition, e.g. solving hard math-word problems with code, creating a bot to answer questions on proprietary manuals or about domain-specialized corpora. Our main contribution is to show that concatenation of LoRAs (CAT), which optimally weights LoRAs that were individually trained on different skills, outperforms existing model- and data- merging techniques; for instance on math-word problems, CAT beats these methods by an average of 43% and 12% respectively. Thus, this paper advocates model merging as an efficient way to solve compositional tasks and underscores CAT as a simple, compute-friendly and effective procedure. To our knowledge, this is the first work demonstrating the superiority of model merging over data mixing for binary skill composition tasks. Code and data are available at https://github.com/aksh555/LoRA-Soups
arxiv情報
著者 | Akshara Prabhakar,Yuanzhi Li,Karthik Narasimhan,Sham Kakade,Eran Malach,Samy Jelassi |
発行日 | 2024-12-02 06:40:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google