VersaTune: An Efficient Data Composition Framework for Training Multi-Capability LLMs

要約

大規模な事前トレーニング済みモデル、特に大規模言語モデル (LLM) は、その創発的な特性により、ドメイン全体で複数のタスクを処理する際に優れた機能を示しています。
これらの機能は、監視付き微調整 (SFT) フェーズ中にさらに強化されます。
その可能性にもかかわらず、既存の研究は主に微調整中のドメイン固有の機能強化に焦点を当てており、その課題は他のドメインにわたる知識の壊滅的な忘却にあります。
この研究では、トレーニング中に LLM の全体的な多能力パフォーマンスを向上させるために設計された新しいデータ構成フレームワークである VersaTune を紹介します。
私たちは知識を法律、医学、金融、科学、コードなどの個別のドメインに分類します。まず、基本モデル内のドメイン固有の知識の分布を検出し、続いてモデルの既存の知識の分布と一致するトレーニング データの構成を行います。
トレーニング プロセス中、ドメインの重みは、学習可能な可能性と忘却の程度に基づいて動的に調整されます。
実験結果は、VersaTune がマルチドメイン パフォーマンスの大幅な向上を達成し、包括的なマルチドメイン タスクが 35.21% 強化されたことを示しています。
さらに、特定のドメインの最適化が必要なシナリオでは、VersaTune はターゲット ドメインのトレーニング効果を損なうことなく、他のドメインのパフォーマンスの低下を 38.77% 削減します。

要約(オリジナル)

Large-scale pretrained models, particularly Large Language Models (LLMs), have exhibited remarkable capabilities in handling multiple tasks across domains due to their emergent properties. These capabilities are further augmented during the Supervised Fine-Tuning (SFT) phase. Despite their potential, existing work mainly focuses on domain-specific enhancements during fine-tuning, the challenge of which lies in catastrophic forgetting of knowledge across other domains. In this study, we introduce VersaTune, a novel data composition framework designed for enhancing LLMs’ overall multi-ability performances during training. We categorize knowledge into distinct domains including law, medicine, finance, science, code, etc. We begin with detecting the distribution of domain-specific knowledge within the base model, followed by the training data composition that aligns with the model’s existing knowledge distribution. During the training process, domain weights are dynamically adjusted based on their learnable potential and forgetting degree. Experimental results demonstrate that VersaTune achieves significant improvements in multi-domain performance, with an 35.21% enhancement in comprehensive multi-domain tasks. Additionally, in scenarios where specific domain optimization is required, VersaTune reduces the degradation of performance in other domains by 38.77%, without compromising the target domain’s training efficacy.

arxiv情報

著者 Keer Lu,Keshi Zhao,Zheng Liang,Da Pan,Shusen Zhang,Xin Wu,Weipeng Chen,Zenan Zhou,Guosheng Dong,Bin Cui,Wentao Zhang
発行日 2024-12-02 02:27:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク