The Scaling Law for LoRA Base on Mutual Information Upper Bound

要約

LoRA (低ランク適応) は、広く使用されているモデルの微調整方法です。
微調整においては、モデルのパフォーマンス、モデルのパラメーター、データの複雑さの間の法則がこの分野の焦点となっています。
既存の手法では、外部メトリクス (クロスエントロピーやパープレキシティなど) を利用してモデルのパフォーマンスを評価することがよくあります。
大規模モデルの微調整プロセスでは、通常、2 種類の知識が関係します。1 つは事前トレーニング中にモデルによって取得された凍結された一般的な知識、もう 1 つは現在のデータから LoRA モジュールを通じて学習された新しい知識です。
一般に、LoRA が学習した知識の大規模モデルへの依存度が低いほど、新しいデータの特定の知識をより多く取り込み、それによって新しいタスクへの適応性が高まります。
ただし、外部メトリクスでは、これら 2 種類の知識間の依存関係を簡単に把握することはできません。
したがって、大規模モデルの LoRA 微調整のスケーリング則を調査するために、相互情報上限 (MIUB) 理論に基づいて内部メトリックを設計しました。
私たちの実験では、Llama3-8B モデルと Phi3-3B モデルを使用して、ベンチマーク データセットでこのアプローチを検証しました。
結果は、提案された MIUB メトリクスが、クロスエントロピーやパープレキシティと比較して、LoRA 微調整のスケーリング則とより正確かつ安定して一致していることを示しています。

要約(オリジナル)

LoRA (Low-Rank Adaptation) is a widely used model fine-tuning method. In fine-tuning, the law among model performance, model parameters, and data complexity has been a focal issue in the field. Existing methods often leverage external metrics (such as cross-entropy or perplexity) to evaluate model performance. In the fine-tuning process for large models, two types of knowledge are typically involved: the frozen, general knowledge acquired by the model during pre-training and the new knowledge learned through the LoRA module from the current data. Generally, the less LoRA’s learned knowledge relies on the large model, the more it captures the specific knowledge of new data, thereby enhancing its adaptability to new tasks. However, external metrics do not readily capture the dependency relationship between these two types of knowledge. Therefore, we designed an internal metric based on the Mutual Information Upper Bound (MIUB) theory to investigate the scaling law of large-model LoRA fine-tuning. In our experiments, we validated this approach on benchmark datasets, using the Llama3-8B and Phi3-3B models. The results show that the proposed MIUB metric aligns more accurately and stably with the scaling law of LoRA fine-tuning compared to cross-entropy and perplexity.

arxiv情報

著者 Jing Zhang,Hui Gao,Peng Zhang,Shuzhen Sun,Chang Yang,Yuexian Hou
発行日 2025-01-06 17:19:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク