Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models

要約

自然言語、プログラミング コード、数学記号の基礎となるデータ分布は大きく異なり、3 つのドメインすべてで同時に高いパフォーマンスを達成しようとする大規模言語モデル (LLM) にとって複雑な課題となっています。
特定のドメイン内で LLM の非常に高いレベルの熟練度を達成するには、多くの場合、関連するコーパスを使用した広範なトレーニングが必要ですが、これには通常、他のドメインでのパフォーマンスの犠牲が伴います。
この論文では、すでに高度に専門化されているモデルを直接融合することを提案します。
提案された融合フレームワークである UltraFuser は、言語、コーディング、および数学についてすでに十分な訓練を受けた 3 人の異なる専門家で構成されています。
スペシャリストの出力を混合するために、トークンレベルのゲートメカニズムが導入されています。
安定性を確保するために、バランスの取れたサンプリングを伴う 2 段階のトレーニング戦略が設計されています。
融合モデルを効果的にトレーニングするために、テキスト、コード、数学的コンテンツを含む高品質の教師あり命令チューニング データセット UltraChat 2 をさらに構築します。
このデータセットは約 300,000 の命令で構成されており、各ドメインの幅広いトピックをカバーしています。
実験では、私たちのモデルが 3 つの重要な領域を同時に習得できることが示されました。

要約(オリジナル)

Underlying data distributions of natural language, programming code, and mathematical symbols vary vastly, presenting a complex challenge for large language models (LLMs) that strive to achieve high performance across all three domains simultaneously. Achieving a very high level of proficiency for an LLM within a specific domain often requires extensive training with relevant corpora, which is typically accompanied by a sacrifice in performance in other domains. In this paper, we propose to fuse models that are already highly-specialized directly. The proposed fusing framework, UltraFuser, consists of three distinct specialists that are already sufficiently trained on language, coding, and mathematics. A token-level gating mechanism is introduced to blend the specialists’ outputs. A two-stage training strategy accompanied by balanced sampling is designed to ensure stability. To effectively train the fused model, we further construct a high-quality supervised instruction tuning dataset, UltraChat 2, which includes text, code, and mathematical content. This dataset comprises approximately 300,000 instructions and covers a wide range of topics in each domain. Experiments show that our model could simultaneously achieve mastery of the three crucial domains.

arxiv情報

著者 Ning Ding,Yulin Chen,Ganqu Cui,Xingtai Lv,Weilin Zhao,Ruobing Xie,Bowen Zhou,Zhiyuan Liu,Maosong Sun
発行日 2024-03-18 07:21:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク