要約
事前トレーニングされた大規模言語モデルの進歩により、NLP の最近の進歩が大幅に加速しましたが、そのサイズが増大し続けるため、特にメモリを大量に使用するタスクにおいて、従来の微調整には大きな課題が生じています。
私たちは、多言語要約の領域における低ランク適応 (LoRA) に焦点を当てて、パラメーター効率の良い微調整の可能性を調査します。このタスクは、(一般に入力が長いため) 難しく、比較的未開発のタスクです。
私たちは、さまざまなサイズのモデルを活用して、高データ設定と低データ設定、言語間の転送など、さまざまなデータ可用性シナリオにわたって広範な調査を実施します。
私たちの調査結果では、LoRA は大量のデータでトレーニングされた場合には完全な微調整で競争力があり、低データのシナリオや言語を越えた転送では優れていることが明らかになりました。
また、少数ショットの言語間転送のためのさまざまな戦略も研究し、継続的な LoRA チューニングが完全な微調整や言語固有の LoRA モジュールの動的な構成よりも優れていることを発見しました。
要約(オリジナル)
Although the advancements of pre-trained Large Language Models have significantly accelerated recent progress in NLP, their ever-increasing size poses significant challenges for conventional fine-tuning, especially in memory-intensive tasks. We investigate the potential of Parameter-Efficient Fine-Tuning, focusing on Low-Rank Adaptation (LoRA), in the domain of multilingual summarization, a task that is both challenging (due to typically long inputs), and relatively unexplored. We conduct an extensive study across different data availability scenarios, including high- and low-data settings, and cross-lingual transfer, leveraging models of different sizes. Our findings reveal that LoRA is competitive with full fine-tuning when trained with high quantities of data, and excels in low-data scenarios and cross-lingual transfer. We also study different strategies for few-shot cross-lingual transfer, finding that continued LoRA tuning outperforms full fine-tuning and the dynamic composition of language-specific LoRA modules.
arxiv情報
著者 | Chenxi Whitehouse,Fantine Huot,Jasmijn Bastings,Mostafa Dehghani,Chu-Cheng Lin,Mirella Lapata |
発行日 | 2024-03-31 17:01:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google