Matrix-Transformation Based Low-Rank Adaptation (MTLoRA): A Brain-Inspired Method for Parameter-Efficient Fine-Tuning

要約

大規模事前トレーニング言語モデル (LPLM) に基づく微調整技術は、さまざまな下流タスクでのモデルのパフォーマンスを大幅に向上させ、LPLM の出力動作を効果的に制御することが証明されています。
最近の研究では、オープンソースの LPLM に基づいて少数のパラメータを微調整し、計算リソースとストレージ リソースの需要を削減するための多数の方法が提案されています。
中でも、LoRA(Low-Rank Adaptation)に代表される再パラメータ化微調整手法が人気を集めています。
これらの方法は多くの点で優れたパフォーマンスを発揮しますが、複雑なタスクの適応性、パフォーマンス、安定性、アルゴリズムの複雑さの点でまだ改善の余地がかなりあることがわかりました。
これに応えて、この論文は、脳の機能はその幾何学的構造によって形成されるという考えに触発され、この考えを LoRA テクノロジーに統合し、効率的な微調整のための新しい行列変換ベースの再パラメータ化方法、つまり行列変換を提案します。
低ランク適応 (MTLoRA) に基づいています。
MTLoRA は、変換行列 T を適用してタスク固有のパラメーター行列に対して回転、スケーリング、平行移動などの線形変換を実行し、基本的な行列を模倣する新しい行列特徴パターン (固有ベクトル) を生成することにより、その空間幾何学的構造を動的に変更することを目的としています。
脳内の複雑な幾何学的構造の特徴パターンが機能に与える影響により、下流のタスクにおけるモデルのパフォーマンスが向上します。
Natural Language Understanding (NLU) タスクでは、GLUE ベンチマーク テストを使用して評価され、その結果、MTLoRA が 8 つのタスク全体で約 1.0% の全体的なパフォーマンスの向上を達成していることが明らかになりました。
自然言語生成 (NLG) タスクでは、MTLoRA は DART タスクと WebNLG タスクでそれぞれ平均 0.95% と 0.56% パフォーマンスを向上させます。

要約(オリジナル)

Fine-tuning techniques based on Large Pretrained Language Models (LPLMs) have been proven to significantly enhance model performance on a variety of downstream tasks and effectively control the output behaviors of LPLMs. Recent studies have proposed numerous methods for fine-tuning a small number of parameters based on open-source LPLMs, reducing the demand for computational and storage resources. Among these, reparameterization fine-tuning methods represented by LoRA (Low-Rank Adaptation) have gained popularity. We find that although these methods perform well in many aspects, there is still considerable room for improvement in terms of complex task adaptability, performance, stability, and algorithm complexity. In response to this, inspired by the idea that the functions of the brain are shaped by its geometric structure, this paper integrates this idea into LoRA technology and proposes a new matrix transformation-based reparameterization method for efficient fine-tuning, named Matrix-Transformation based Low-Rank Adaptation (MTLoRA). MTLoRA aims to dynamically alter its spatial geometric structure by applying a transformation-matrix T to perform linear transformations, such as rotation, scaling, and translation, on the task-specific parameter matrix, generating new matrix feature patterns (eigenvectors) to mimic the fundamental influence of complex geometric structure feature patterns in the brain on functions, thereby enhancing the model’s performance in downstream tasks. In Natural Language Understanding (NLU) tasks, it is evaluated using the GLUE benchmark test, and the results reveal that MTLoRA achieves an overall performance increase of about 1.0% across eight tasks; in Natural Language Generation (NLG) tasks, MTLoRA improves performance by an average of 0.95% and 0.56% in the DART and WebNLG tasks, respectively.

arxiv情報

著者 Yao Liang,Yuwei Wang,Yang Li,Yi Zeng
発行日 2024-03-18 10:13:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク