ChuXin: 1.6B Technical Report

要約

このレポートでは、16 億のパラメータを持つ完全にオープンソースの言語モデルである ChuXin を紹介します。
モデルの重みとアーキテクチャのみをオープンソース化した大多数の作品とは異なり、トレーニング データ、トレーニング プロセス、評価コードなど、モデルのトレーニングに必要なものすべてを利用できるようにしました。
私たちの目標は、オープンな研究コミュニティに力を与えて強​​化し、透明性を促進し、言語モデリングの分野におけるイノベーションの新たな波を可能にすることです。
さらに、軽量の継続的事前トレーニングによってコンテキストの長さを 1M トークンに拡張し、干し草の山の中の針を刺すような強力な検索パフォーマンスを実証します。
両方のモデルのウェイトは、Hugging Face からダウンロードして使用できます。

要約(オリジナル)

In this report, we present ChuXin, an entirely open-source language model with a size of 1.6 billion parameters. Unlike the majority of works that only open-sourced the model weights and architecture, we have made everything needed to train a model available, including the training data, the training process, and the evaluation code. Our goal is to empower and strengthen the open research community, fostering transparency and enabling a new wave of innovation in the field of language modeling. Furthermore, we extend the context length to 1M tokens through lightweight continual pretraining and demonstrate strong needle-in-a-haystack retrieval performance. The weights for both models are available at Hugging Face to download and use.

arxiv情報

著者 Xiaomin Zhuang,Yufan Jiang,Qiaozhi He,Zhihua Wu
発行日 2024-05-08 05:54:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク