Block Circulant Adapter for Large Language Models

要約

大型言語モデル(LLMS)の微調整は、モデルサイズが大きいため困難です。
最近のフーリエドメインベースの方法は、微調整コストを削減する可能性を示しています。
循環マトリックスと1次元フーリエ変換の特性を活用して、ストレージと計算コストを削減するために、安定したトレーニングヒューリスティックを備えたブロック循環マトリックスベースの微調整法を提案します。
実験では、私たちの方法では、Veraよりも14ドルのパラメーター数が少なく、$ 16 \ Times $がLORAよりも小さく、$ 32 \ Times $がForierftよりも少ないことが使用されていることが示されています。
私たちのアプローチは、下流タスクで大きなモデルを微調整するための周波数ドメインの有望な方法を提示します。

要約(オリジナル)

Fine-tuning large language models (LLMs) is difficult due to their huge model size. Recent Fourier domain-based methods show potential for reducing fine-tuning costs. We propose a block circulant matrix-based fine-tuning method with a stable training heuristic to leverage the properties of circulant matrices and one-dimensional Fourier transforms to reduce storage and computation costs. Experiments show that our method uses $14\times$ less number of parameters than VeRA, $16\times$ smaller than LoRA and $32\times$ less FLOPs than FourierFT, while maintaining close or better task performance. Our approach presents a promising way in frequency domain to fine-tune large models on downstream tasks.

arxiv情報

著者 Xinyu Ding,Meiqi Wang,Siyu Liao,Zhongfeng Wang
発行日 2025-05-01 15:14:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク