要約
大規模言語モデル (LLM) を新しいタスクに適応させるための既存の方法は、すべてのモデルの重みを変更し、タスク間で破壊的な干渉を引き起こすため、マルチタスクの適応には適していません。
以前のタスクを壊滅的に忘れてしまうなどの結果として、複数のタスクで同時に優れたパフォーマンスを得ることが困難になります。
これを軽減するために、モデルの疎なサブネットワークのみを識別して最適化する疎な適応方法である Lottory Ticket Adaptation (LoTA) を提案します。
私たちは、指示への従うこと、推論、数学、要約など、幅広い困難なタスクに関して LoTA を評価します。
LoTA は、完全な微調整と低ランク適応 (LoRA) よりも優れたパフォーマンスを実現し、他のタスクでトレーニングした後でも良好なパフォーマンスを維持するため、致命的な忘れを回避します。
\emph{宝くじ} (または \emph{疎なタスクベクトル}) を抽出して微調整することにより、LoTA は非常に異なるタスクにわたるモデルのマージも可能にします。
要約(オリジナル)
Existing methods for adapting large language models (LLMs) to new tasks are not suited to multi-task adaptation because they modify all the model weights — causing destructive interference between tasks. The resulting effects, such as catastrophic forgetting of earlier tasks, make it challenging to obtain good performance on multiple tasks at the same time. To mitigate this, we propose Lottery Ticket Adaptation (LoTA), a sparse adaptation method that identifies and optimizes only a sparse subnetwork of the model. We evaluate LoTA on a wide range of challenging tasks such as instruction following, reasoning, math, and summarization. LoTA obtains better performance than full fine-tuning and low-rank adaptation (LoRA), and maintains good performance even after training on other tasks — thus, avoiding catastrophic forgetting. By extracting and fine-tuning over \emph{lottery tickets} (or \emph{sparse task vectors}), LoTA also enables model merging over highly dissimilar tasks.
arxiv情報
著者 | Ashwinee Panda,Berivan Isik,Xiangyu Qi,Sanmi Koyejo,Tsachy Weissman,Prateek Mittal |
発行日 | 2024-06-24 16:58:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google