Flexora: Flexible Low Rank Adaptation for Large Language Models

要約

大規模言語モデル (LLM) は、モデル パラメーターの規模を拡大することで人工知能の進歩を推進しており、一般化能力が大幅に強化され、実際に新しい機能が解放されます。
ただし、特定の下流タスクにおけるパフォーマンスは通常、これらのタスクに関する知識の限界によって妨げられます。
したがって、微調整技術、特に広く使用されている低ランク適応 (LoRA) 手法は、これらのタスクの境界を拡張するために導入されましたが、LoRA は特定のタスクでは過剰適合する可能性があるため、特定のタスクではパフォーマンスが低下します。
このオーバーフィッティングを克服し、LoRA のパフォーマンスを向上させるために、さまざまなダウンストリーム タスクで最高のパフォーマンスを達成するために微調整する必要がある最も重要なレイヤーを自動的かつ柔軟に選択する、柔軟な低ランク適応 (Flexora) 手法を提案します。
具体的には、Flexora はまずこのレイヤー選択問題を明確に定義されたハイパーパラメーター最適化 (HPO) 問題としてフレーム化し、次に展開微分 (UD) 手法を使用してそれに対処し、最後に最適化されたハイパーパラメーターに基づいて最も有用なレイヤーを選択します。
多くの事前トレーニング済みモデルと自然言語タスクに関する広範な実験では、Flexora が既存のベースラインを一貫して改善できることが示されており、実際の Flexora の有効性が示されています。
さらに、Flexora の包括的な理解を提供するために、洞察力に富んだ理論的結果と多くのアブレーション研究も提供します。

要約(オリジナル)

Large Language Models (LLMs) are driving advancements in artificial intelligence by increasing the scale of model parameters, which has significantly enhanced generalization ability and unlocked new capabilities in practice. However, their performance in specific downstream tasks is usually hindered by their knowledge boundaries on these tasks. Thus, fine-tuning techniques, especially the widely used Low-Rank Adaptation (LoRA) method, have been introduced to expand the boundaries on these tasks, whereas LoRA would underperform on certain tasks owing to its potential overfitting on these tasks. To overcome this overfitting and improve the performance of LoRA, we propose the flexible low rank adaptation (Flexora) method to automatically and flexibly select the most important layers needing to be fine-tuned to achieve the best performance on different downstream tasks. Specifically, Flexora firstly frames this layer selection problem as a well-defined hyperparameter optimization (HPO) problem, then addresses it using the unrolled differentiation (UD) method, and finally selects the most useful layers based on the optimized hyperparameters. Our extensive experiments on many pretrained models and natural language tasks show that Flexora is able to consistently improve over the existing baselines, indicating the effectiveness of our Flexora in practice. We additionally provide insightful theoretical results and many ablation studies to deliver a comprehensive understanding of our Flexora.

arxiv情報

著者 Chenxing Wei,Yao Shu,Ying Tiffany He,Fei Richard Yu
発行日 2024-08-20 12:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク