要約
約 2 兆個のトークンで事前トレーニングされた、コンパクトで効率的な 1.1B 言語モデルである Xmodel-LM を紹介します。
下流タスクの最適化に基づいて中国語と英語のコーパスのバランスをとった自社構築データセット (Xdata) でトレーニングされた Xmodel-LM は、サイズが小さいにもかかわらず、顕著なパフォーマンスを示します。
これは、同様の規模の既存のオープンソース言語モデルを顕著に上回っています。
モデルのチェックポイントとコードは、GitHub (https://github.com/XiaoduoAILab/XmodelLM) で公開されています。
要約(オリジナル)
We introduce Xmodel-LM, a compact and efficient 1.1B language model pre-trained on around 2 trillion tokens. Trained on our self-built dataset (Xdata), which balances Chinese and English corpora based on downstream task optimization, Xmodel-LM exhibits remarkable performance despite its smaller size. It notably surpasses existing open-source language models of similar scale. Our model checkpoints and code are publicly accessible on GitHub at https://github.com/XiaoduoAILab/XmodelLM.
arxiv情報
著者 | Yichuan Wang,Yang Liu,Yu Yan,Qun Wang,Xucheng Huang,Ling Jiang |
発行日 | 2024-11-19 08:38:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google