要約
大規模言語モデル (LLM) を最初からトレーニングすると、独特の機能と強みを持つモデルを生成できますが、それには多大なコストがかかり、機能が冗長になる可能性があります。
あるいは、費用対効果が高く説得力のあるアプローチは、既存の事前トレーニングされた LLM をより強力なモデルにマージすることです。
ただし、これらの LLM のアーキテクチャはさまざまであるため、重みを直接ブレンドすることは現実的ではありません。
このペーパーでは、既存の LLM の機能を組み合わせて単一の LLM に移行することを目的とした、LLM の知識融合の概念を紹介します。
ソース LLM の生成分布を活用することで、その集合的な知識と独自の強みを外部化し、それによってターゲット モデルの機能を個々のソース LLM の機能を超えて高める可能性があります。
さまざまなベンチマークとタスクにわたって、異なるアーキテクチャを持つ 3 つの一般的な LLM (Llama-2、MPT、OpenLLaMA) を使用してアプローチを検証します。
私たちの調査結果は、LLM の融合により、推論、常識、コード生成などのさまざまな機能にわたってターゲット モデルのパフォーマンスを向上させることができることを裏付けています。
私たちのコード、モデルの重み、データは \url{https://github.com/fanqiwan/FuseLLM} で公開されています。
要約(オリジナル)
While training large language models (LLMs) from scratch can generate models with distinct functionalities and strengths, it comes at significant costs and may result in redundant capabilities. Alternatively, a cost-effective and compelling approach is to merge existing pre-trained LLMs into a more potent model. However, due to the varying architectures of these LLMs, directly blending their weights is impractical. In this paper, we introduce the notion of knowledge fusion for LLMs, aimed at combining the capabilities of existing LLMs and transferring them into a single LLM. By leveraging the generative distributions of source LLMs, we externalize their collective knowledge and unique strengths, thereby potentially elevating the capabilities of the target model beyond those of any individual source LLM. We validate our approach using three popular LLMs with different architectures–Llama-2, MPT, and OpenLLaMA–across various benchmarks and tasks. Our findings confirm that the fusion of LLMs can improve the performance of the target model across a range of capabilities such as reasoning, commonsense, and code generation. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/FuseLLM}.
arxiv情報
著者 | Fanqi Wan,Xinting Huang,Deng Cai,Xiaojun Quan,Wei Bi,Shuming Shi |
発行日 | 2024-01-19 05:02:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google