要約
パラメーター効率の高い微調整(PEFT)メソッドは、大規模な言語モデルの適応に有望であることが示されていますが、既存のアプローチは直感に反する現象を示します。ルーターを迅速な調整(PT)に統合すると、トレーニング効率が向上しますが、パフォーマンスを普遍的に改善しません。
マトリックス分解によるパラメーターの削減は、特定のドメインのパフォーマンスを改善する可能性があります。
これらの観察とPTのモジュール性に動機付けられているPT-MOEを提案します。PT-MoEは、効率的なPTのために行列分解(MOE)ルーティングとマトリックス分解を統合する新しいフレームワークであることを提案します。
17のデータセットにわたる結果は、PT-MOEが質問回答(QA)と数学の問題解決タスクの両方で最先端のパフォーマンスを達成し、QAタスクでPTで1.49ポイント、LORAで1.49ポイント、2.13ポイントを改善しながら、LORAよりもPTおよび0.44ポイントを超えてPTおよび0.44ポイントを超えて数学的精度を強化することを示しています。
私たちの分析により、PTメソッドは一般に数学データセットにおけるQAタスクとロラベースの方法で優れていますが、PT-MOEにおけるマトリックス分解とMOEの統合により補完的な利点が得られます。
これらの調査結果は、ルーティングメカニズムと建築コンポーネントに関するアブレーション研究とともに、将来のPEFTメソッドの洞察を提供します。
要約(オリジナル)
Parameter-efficient fine-tuning (PEFT) methods have shown promise in adapting large language models, yet existing approaches exhibit counter-intuitive phenomena: integrating router into prompt tuning (PT) increases training efficiency yet does not improve performance universally; parameter reduction through matrix decomposition can improve performance in specific domains. Motivated by these observations and the modular nature of PT, we propose PT-MoE, a novel framework that integrates matrix decomposition with mixture-of-experts (MoE) routing for efficient PT. Results across 17 datasets demonstrate that PT-MoE achieves state-of-the-art performance in both question answering (QA) and mathematical problem solving tasks, improving F1 score by 1.49 points over PT and 2.13 points over LoRA in QA tasks, while enhancing mathematical accuracy by 10.75 points over PT and 0.44 points over LoRA, all while using 25% fewer parameters than LoRA. Our analysis reveals that while PT methods generally excel in QA tasks and LoRA-based methods in math datasets, the integration of matrix decomposition and MoE in PT-MoE yields complementary benefits: decomposition enables efficient parameter sharing across experts while MoE provides dynamic adaptation, collectively enabling PT-MoE to demonstrate cross-task consistency and generalization abilities. These findings, along with ablation studies on routing mechanisms and architectural components, provide insights for future PEFT methods.
arxiv情報
著者 | Zongqian Li,Yixuan Su,Nigel Collier |
発行日 | 2025-05-14 16:16:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google