Dynamic data sampler for cross-language transfer learning in large language models

要約

大規模言語モデル (LLM) は、その応用範囲が広いため、自然言語処理 (NLP) の分野で大きな注目を集めています。
ただし、大規模なコーパスと必要なコンピューティング リソースの取得が難しいため、英語以外の言語の LLM をトレーニングすることには大きな課題が伴います。
この論文では、これらの課題に対処し、コスト効率の高い方法で大規模な中国語モデルをトレーニングするために、言語間転送ベースの LLM である ChatFlow を提案します。
私たちは中国語、英語、および対訳コーパスを組み合わせて LLaMA2 モデルを継続的にトレーニングし、言語間の表現を調整し、特に中国語モデルへの知識の伝達を促進することを目指しています。
さらに、動的データ サンプラーを使用して、モデルを教師なし事前トレーニングから教師あり微調整に段階的に移行します。
実験結果は、私たちのアプローチがモデルの収束を加速し、優れたパフォーマンスを達成することを示しています。
ChatFlow を一般的な中国語と英語のベンチマークで評価しました。その結果、LLaMA-2-7B でトレーニング後の他の中国語モデルよりも優れていることがわかりました。

要約(オリジナル)

Large Language Models (LLMs) have gained significant attention in the field of natural language processing (NLP) due to their wide range of applications. However, training LLMs for languages other than English poses significant challenges, due to the difficulty in acquiring large-scale corpus and the requisite computing resources. In this paper, we propose ChatFlow, a cross-language transfer-based LLM, to address these challenges and train large Chinese language models in a cost-effective manner. We employ a mix of Chinese, English, and parallel corpus to continuously train the LLaMA2 model, aiming to align cross-language representations and facilitate the knowledge transfer specifically to the Chinese language model. In addition, we use a dynamic data sampler to progressively transition the model from unsupervised pre-training to supervised fine-tuning. Experimental results demonstrate that our approach accelerates model convergence and achieves superior performance. We evaluate ChatFlow on popular Chinese and English benchmarks, the results indicate that it outperforms other Chinese models post-trained on LLaMA-2-7B.

arxiv情報

著者 Yudong Li,Yuhao Feng,Wen Zhou,Zhe Zhao,Linlin Shen,Cheng Hou,Xianxu Hou
発行日 2024-05-17 08:40:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク