MoRe Fine-Tuning with 10x Fewer Parameters

要約

パラメーター効率の良い微調整 (PEFT) 技術により、大規模な事前トレーニング済みモデルを安価かつ簡単に特殊化できる可能性が解放されました。
ただし、低ランク アダプター (LoRA) などの最も有力なアプローチは、アーキテクチャの選択をヒューリスティックや経験則に依存しており、新しいモデルやアーキテクチャのパフォーマンスが制限される可能性があります。
この制限は、ニューラル アーキテクチャ検索の手法を使用して最適なアダプター アーキテクチャを取得できることを示唆していますが、これらは多くの場合高価であり、実装が困難です。
私たちは、Monarch マトリックス クラスに依存するアダプター アーキテクチャを検索するためのシンプルなフレームワークである Monarch Rectangular Fine-tuning (MoRe) を使用して、この課題に対処します。
理論的には、MoRe が LoRA よりも表現力が高いことを示します。
経験的に、私たちのアプローチは、LoRA のパラメータのわずか 5% で、さまざまなタスクやモデルにおいて、最先端の PEFT よりもパラメータ効率とパフォーマンスが優れています。

要約(オリジナル)

Parameter-efficient fine-tuning (PEFT) techniques have unlocked the potential to cheaply and easily specialize large pretrained models. However, the most prominent approaches, like low-rank adapters (LoRA), depend on heuristics or rules-of-thumb for their architectural choices — potentially limiting their performance for new models and architectures. This limitation suggests that techniques from neural architecture search could be used to obtain optimal adapter architectures, but these are often expensive and difficult to implement. We address this challenge with Monarch Rectangular Fine-tuning (MoRe), a simple framework to search over adapter architectures that relies on the Monarch matrix class. Theoretically, we show that MoRe is more expressive than LoRA. Empirically, our approach is more parameter-efficient and performant than state-of-the-art PEFTs on a range of tasks and models, with as few as 5\% of LoRA’s parameters.

arxiv情報

著者 Wenxuan Tan,Nicholas Roberts,Tzu-Heng Huang,Jitian Zhao,John Cooper,Samuel Guo,Chengyu Duan,Frederic Sala
発行日 2024-08-30 16:24:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク