CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices

要約

最近、ラップトップやスマートフォンなどの個人用デバイスに大規模言語モデル (LLM) を展開する需要があります。
これらの LLM は、さまざまなタスクを処理するときにさまざまなモデル バリアントを持ちます。
ただし、個人用デバイスのリソースは限られているため、ストレージのオーバーヘッドを削減する必要があります。
これに対処するために、2 つの主要な方法が利用可能です。1 つはモデル圧縮で、LLM をより小さなサイズに圧縮します。
2 つ目は LoRA です。これは、非常に少ないパラメーターで LLM を他のタスクに転送でき、LoRA のみを保存することでマルチタスク シナリオでの複数のモデル バリアントの保存を回避します。
ただし、私たちの実験では、これら 2 つの方法を直接組み合わせると次善のパフォーマンスが得られることが示されています。
オープンソース コミュニティがすでに多くの LoRA を LLM に提供していることを考慮して、これらの既存の LoRA を LLM からその圧縮バージョンに適応させ、Compression-Aware LoRA (CA-LoRA) フレームワークを導入することを提案します。
モデルの圧縮によって失われた知識を回復するために、知識の継承と回復戦略が組み込まれています。
実験結果は、CA-LoRA が圧縮 LLM に適用される標準的な LoRA メソッドよりも優れたパフォーマンスを示し、既存の LoRA モジュールを使用した非圧縮 LLM と同等のパフォーマンスを達成することを示しています。
CA-LoRA のソース コードは https://github.com/thunlp/CA-LoRA で入手できます。

要約(オリジナル)

Recently, there has been a demand to deploy Large Language Models (LLMs) on personal devices such as laptops and smartphones. These LLMs have different model variants when handling different tasks. However, personal devices have limited resources and require reduced storage overhead. To address this, there are two key methods available: the first is model compression, which compresses LLMs into smaller sizes; the second is LoRA, which can transfer an LLM to other tasks with very few parameters, avoiding the storage of multiple model variants in multi-task scenarios by only preserving LoRAs. However, our experiments show that directly combining these two methods yields sub-optimal performance. Considering that the open-source community has already contributed many LoRAs to LLMs, we propose to adapt these existing LoRAs from the LLMs to their compressed version and introduce a Compression-Aware LoRA (CA-LoRA) framework. We incorporate knowledge inheritance and recovery strategies to recover the lost knowledge caused by model compression. Experiment results demonstrate that CA-LoRA outperforms the vanilla LoRA methods applied to a compressed LLM and achieves comparable performance to the non-compressed LLM with existing LoRA modules. The source code of CA-LoRA is available at https://github.com/thunlp/CA-LoRA.

arxiv情報

著者 Weilin Zhao,Yuxiang Huang,Xu Han,Zhiyuan Liu,Zhengyan Zhang,Kuai Li,Chen Chen,Tao Yang,Maosong Sun
発行日 2024-08-07 13:43:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク