AdaMoLE: Fine-Tuning Large Language Models with Adaptive Mixture of Low-Rank Adaptation Experts

要約

低ランク適応 (LoRA) エキスパートの適応混合を通じて大規模言語モデル (LLM) を微調整する新しい方法である AdaMoLE を紹介します。
AdaMoLE は、エキスパートをアクティブ化するために静的なトップ K 戦略を採用する従来の方法を超えて、専用のしきい値ネットワークを使用してアクティブ化しきい値を動的に調整し、さまざまなタスクのさまざまな複雑さに適応的に対応します。
レイヤー内の単一の LoRA を複数の LoRA エキスパートに置き換え、ゲート機能をしきい値メカニズムと統合することにより、AdaMoLE は入力コンテキストに基づいて最も適切なエキスパートを効果的に選択し、アクティブ化します。
さまざまな常識的推論および自然言語処理タスクにわたる広範な評価により、AdaMoLE がベースラインのパフォーマンスを上回っていることが示されています。
この機能強化は、AdaMoLE による LoRA エキスパートの適応的選択の利点を強調し、エキスパートの数を相応に増加させることなくモデルの有効性を向上させます。
この実験的検証は、AdaMoLE が LLM を強化するための堅牢なアプローチであることを確認するだけでなく、適応エキスパート選択メカニズムにおける将来の研究に貴重な方向性を示唆し、多様な言語処理タスクにわたってモデルのパフォーマンスを最適化する範囲を広げる可能性があります。

要約(オリジナル)

We introduce AdaMoLE, a novel method for fine-tuning large language models (LLMs) through an Adaptive Mixture of Low-Rank Adaptation (LoRA) Experts. Moving beyond conventional methods that employ a static top-k strategy for activating experts, AdaMoLE dynamically adjusts the activation threshold using a dedicated threshold network, adaptively responding to the varying complexities of different tasks. By replacing a single LoRA in a layer with multiple LoRA experts and integrating a gating function with the threshold mechanism, AdaMoLE effectively selects and activates the most appropriate experts based on the input context. Our extensive evaluations across a variety of commonsense reasoning and natural language processing tasks show that AdaMoLE exceeds baseline performance. This enhancement highlights the advantages of AdaMoLE’s adaptive selection of LoRA experts, improving model effectiveness without a corresponding increase in the expert count. The experimental validation not only confirms AdaMoLE as a robust approach for enhancing LLMs but also suggests valuable directions for future research in adaptive expert selection mechanisms, potentially broadening the scope for optimizing model performance across diverse language processing tasks.

arxiv情報

著者 Zefang Liu,Jiahua Luo
発行日 2024-05-01 07:33:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク