Xmodel-LM Technical Report

要約

約 2 兆個のトークンで事前トレーニングされた、コンパクトで効率的な 1.1B 言語モデルである Xmodel-LM を紹介します。
下流タスクの最適化に基づいて中国語と英語のコーパスのバランスをとった自社構築データセット (Xdata) でトレーニングされた Xmodel-LM は、サイズが小さいにもかかわらず、顕著なパフォーマンスを示します。
これは、同様の規模の既存のオープンソース言語モデルを顕著に上回っています。
モデルのチェックポイントとコードは、GitHub (https://github.com/XiaoduoAILab/XmodelLM) で公開されています。

要約(オリジナル)

We introduce Xmodel-LM, a compact and efficient 1.1B language model pre-trained on around 2 trillion tokens. Trained on our self-built dataset (Xdata), which balances Chinese and English corpora based on downstream task optimization, Xmodel-LM exhibits remarkable performance despite its smaller size. It notably surpasses existing open-source language models of similar scale. Our model checkpoints and code are publicly accessible on GitHub at https://github.com/XiaoduoAILab/XmodelLM.

arxiv情報

著者 Yichuan Wang,Yang Liu,Yu Yan,Qun Wang,Xucheng Huang,Ling Jiang
発行日 2024-11-19 08:38:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク