SiRA: Sparse Mixture of Low Rank Adaptation

要約

パラメーターの効率的なチューニングは、大規模言語モデルを下流のタスクに適応させるための優れたアプローチです。
これまでのほとんどの研究では、高密度のトレーニング可能なパラメータの追加が考慮されており、すべてのパラメータが特定のタスクに適応するために使用されます。
LoRA の例を使用すると、より多くのトレーニング可能なパラメーターを導入しても効果がないことが経験的にわかりました。
これを動機として、私たちは「スパース」計算を活用する重要性を調査し、SiRA (低ランク適応のスパース混合) を提案します。
SiRA は、Sparse Mixture of Expert(SMoE) を利用して LoRA のパフォーマンスを向上させます。
具体的には、各エキスパートが処理できるトークンの最大数を制限する容量制限を備えた上位 $k$ エキスパートのルーティングを強制します。
オーバーフィッティングの問題を軽減するために、ゲーティング ネットワーク上に新しくてシンプルなエキスパート ドロップアウトを提案します。
広範な実験を通じて、SiRA が LoRA や、さまざまなシングル タスクおよびマルチタスク設定にわたって専門家によるアプローチを組み合わせたものよりも優れたパフォーマンスを発揮することを検証しました。

要約(オリジナル)

Parameter Efficient Tuning has been an prominent approach to adapt the Large Language Model to downstream tasks. Most previous works considers adding the dense trainable parameters, where all parameters are used to adapt certain task. We found this less effective empirically using the example of LoRA that introducing more trainable parameters does not help. Motivated by this we investigate the importance of leveraging ‘sparse’ computation and propose SiRA: sparse mixture of low rank adaption. SiRA leverages the Sparse Mixture of Expert(SMoE) to boost the performance of LoRA. Specifically it enforces the top $k$ experts routing with a capacity limit restricting the maximum number of tokens each expert can process. We propose a novel and simple expert dropout on top of gating network to reduce the over-fitting issue. Through extensive experiments, we verify SiRA performs better than LoRA and other mixture of expert approaches across different single tasks and multitask settings.

arxiv情報

著者 Yun Zhu,Nevan Wichers,Chu-Cheng Lin,Xinyi Wang,Tianlong Chen,Lei Shu,Han Lu,Canoee Liu,Liangchen Luo,Jindong Chen,Lei Meng
発行日 2023-11-15 18:15:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク