要約
大規模言語モデル (LLM) の領域では、LLM は自然言語の理解と生成において重要な機能を実証します。
さまざまなドメインに LLM を適用するニーズが高まる中、さまざまなドメインの専門知識を備えながらトレーニング コストを抑えたモデルを効率的にトレーニングおよび構築する方法が研究課題となっています。
私たちは、複数の強力なドメイン エキスパートを簡単に結合して大きな LLM に融合するフレームワークである CCoE アーキテクチャを提案し、さまざまなドメイン エキスパート LLM を集合的に利用する方法を提供します。
さらに、複数のエキスパート LLM の大規模な共同作業をトレーニングするには、トレーニング ソースに高い要件が必要です。
CCoE は、他の専門家を隔離し、各専門家を個別にトレーニングすることでこの問題を回避します。
CCoE の設計は、CoE (Collaboration of Experts) 層を通じて複数のエキスパート LLM を組み立てます。
各 CoE レイヤには 1 つ以上のエキスパート LLM を含めることができます。
エキスパート LLM にはさまざまな数のレイヤーがあり、さまざまなドメイン タスクに合わせて十分なトレーニングを受けています。
各エキスパートは、SOTA ドメイン LLM と同等の結果を達成できるように微調整されています。
私たちは、コード、数学、法律、テキストから SQL への変換、および医療の分野の 5 人の専門家からスタートします。
結果は、当社の CCoE フレームワークが、さまざまなドメインの元のベース モデルのパフォーマンスを簡単かつ効率的に 10% ~ 20% 近く向上させることができ、トレーニングや推論に使用するリソースを削減できることを示しています。
要約(オリジナル)
In the domain of Large Language Model (LLM), LLMs demonstrate significant capabilities in natural language understanding and generation. With the growing needs of applying LLMs on various domains, it is a research question that how to efficiently train and build a model that has expertise in different domains but with a low training cost. We propose CCoE architecture, a framework of easily coupling multiple strong domain experts together to fuse into a big LLM, provides a collective way of utilizing the different domain expert LLMs. Besides, training a large collaborative of multiple expert LLMs requires a high requirements on training sources. CCoE bypasses this problem through isolating other experts and train each expert separately. The design of CCoE assembles multiple expert LLMs through the CoE (Collaboration of Experts) layer. Each CoE layer could have one or more expert LLMs. Expert LLMs have different number of layers and have been well-trained for different domain tasks. Each expert is fine-tuned to be able to achieve the comparable results with SOTA domain LLMs. We start from 5 experts in the domain of Code, Math, Law, text-to-SQL and Medical. The results indicate that our CCoE framework can easily and efficiently boost nearly 10%-20% performance on original base model in different domains but using less resources on training, as well as inference.
arxiv情報
著者 | Shaomang Huang,Jianfeng Pan,Hanzhong Zheng |
発行日 | 2024-07-17 02:26:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google