SECURA: Sigmoid-Enhanced CUR Decomposition with Uninterrupted Retention and Low-Rank Adaptation in Large Language Models

要約

大規模な言語モデル(LLMS)の急速な発展により、完全に微調整された(FT)これらのモデルは、高い計算需要のためにますます非現実的になっています。
さらに、FTは壊滅的な忘却につながる可能性があります。
別の方法として、低ランクの適応(LORA)が提案されています。これは、パラメーターのわずかなサブセットのみを微調整し、FTと同様のパフォーマンスを達成しながら、リソース要件を大幅に削減します。
しかし、ロラはFTの設計を継承しているため、壊滅的な忘却の問題は残っています。
これらの課題に対処するために、Securaを提案します。シグモイド強化CUR分解Loraは、微調整パフォーマンスを改善しながら壊滅的な忘却を緩和する新しいパラメーター効率の高い微調整(PEFT)バリアントです。
この方法では、パラメーターの保持と全体的なパフォーマンスを強化するために、新しい正規化手法であるSignormを紹介します。
Securaは、数学的問題解決(GSM8K)、挑戦的な質問(CNNDM)、翻訳(Newsde)、複雑な多肢選択式推論(Logiqa)など、さまざまなタスクで評価されています。
実験結果は、Securaが4つの多肢選択質問(MCQ)タスクで3.59%の平均微調整を達成し、GEMMA2 2B、QWEN2 1.5B、QWEN 2 7B、LLAMA3 8B、LLAMA38B、LLAMA3 8B、LLAMA3 8Bなどのモデルの5つの質問回答(QA)タスクで2.51%の改善を達成することを示しています。
さらに、Securaは優れた知識保持機能を実証し、16の継続的な学習テストにわたって基本的なLLM知識の70%以上の精度を維持し、エクスペリエンスリプレイ(ER)、シーケンシャル学習(SEQ)、EWC、I-Lora、およびCur-Loraを上回ることを維持します。

要約(オリジナル)

With the rapid development of large language models (LLMs), fully fine-tuning (FT) these models has become increasingly impractical due to the high computational demands. Additionally, FT can lead to catastrophic forgetting. As an alternative, Low-Rank Adaptation (LoRA) has been proposed, which fine-tunes only a small subset of parameters, achieving similar performance to FT while significantly reducing resource requirements. However, since LoRA inherits FT’s design, the issue of catastrophic forgetting remains. To address these challenges, we propose SECURA: Sigmoid-Enhanced CUR Decomposition LoRA, a novel parameter-efficient fine-tuning (PEFT) variant that mitigates catastrophic forgetting while improving fine-tuning performance. Our method introduces a new normalization technique, SigNorm, to enhance parameter retention and overall performance. SECURA has been evaluated on a variety of tasks, including mathematical problem-solving (GSM8K), challenging question-answering (CNNDM), translation (NewsDE), and complex multiple-choice reasoning (LogiQA). Experimental results show that SECURA achieves an average fine-tuning improvement of 3.59% across four multiple-choice question (MCQ) tasks and a 2.51% improvement across five question-answering (QA) tasks on models such as Gemma2 2b, Qwen2 1.5b, Qwen 2 7b, Llama3 8b, and Llama3.1 8b, compared to DoRA. Moreover, SECURA demonstrates superior knowledge retention capabilities, maintaining more than 70% accuracy on basic LLM knowledge across 16 continual learning tests, outperforming Experience Replay (ER), Sequential Learning (SEQ), EWC, I-LoRA, and CUR-LoRA.

arxiv情報

著者 Yuxuan Zhang
発行日 2025-02-26 14:27:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.6 パーマリンク