TinyLlama: An Open-Source Small Language Model

要約

我々はTinyLlamaを発表する。TinyLlamaは1.1Bのコンパクトな言語モデルであり、約1兆個のトークンを約3エポックで事前学習する。Llama 2のアーキテクチャとトークナイザをベースに、TinyLlamaはオープンソースコミュニティ(例えばFlashAttention)から提供された様々な進歩を活用し、より優れた計算効率を実現している。TinyLlamaは、その比較的小さなサイズにもかかわらず、一連のダウンストリームタスクで顕著な性能を発揮します。同程度のサイズを持つ既存のオープンソース言語モデルを大幅に凌駕しています。我々のモデルのチェックポイントとコードは、GitHubのhttps://github.com/jzhang38/TinyLlama。

要約(オリジナル)

We present TinyLlama, a compact 1.1B language model pretrained on around 1 trillion tokens for approximately 3 epochs. Building on the architecture and tokenizer of Llama 2, TinyLlama leverages various advances contributed by the open-source community (e.g., FlashAttention), achieving better computational efficiency. Despite its relatively small size, TinyLlama demonstrates remarkable performance in a series of downstream tasks. It significantly outperforms existing open-source language models with comparable sizes. Our model checkpoints and code are publicly available on GitHub at https://github.com/jzhang38/TinyLlama.

arxiv情報

著者 Peiyuan Zhang,Guangtao Zeng,Tianduo Wang,Wei Lu
発行日 2024-01-04 17:54:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク