H2O-Danube3 Technical Report

要約

6T トークンでトレーニングされた H2O-Danube3-4B と 4T トークンでトレーニングされた H2O-Danube3-500M で構成される一連の小規模言語モデルである H2O-Danube3 を紹介します。
私たちのモデルは、チャット バージョンの最終的な教師付きチューニングの前に、主に英語のトークンで構成される高品質の Web データで、さまざまなデータ ミックスを使用した 3 つの段階で事前トレーニングされています。
このモデルは、多数の学術ベンチマーク、チャットベンチマーク、および微調整ベンチマークにわたって非常に競争力のある指標を示します。
H2O-Danube3 はコンパクトなアーキテクチャのおかげで、最新のスマートフォンで効率的に実行でき、モバイル デバイスでもローカル推論と高速処理機能を実現します。
私たちはすべてのモデルを Apache 2.0 ライセンスの下でオープンに利用できるようにし、LLM を経済的により広範な利用者にさらに民主化します。

要約(オリジナル)

We present H2O-Danube3, a series of small language models consisting of H2O-Danube3-4B, trained on 6T tokens and H2O-Danube3-500M, trained on 4T tokens. Our models are pre-trained on high quality Web data consisting of primarily English tokens in three stages with different data mixes before final supervised tuning for chat version. The models exhibit highly competitive metrics across a multitude of academic, chat, and fine-tuning benchmarks. Thanks to its compact architecture, H2O-Danube3 can be efficiently run on a modern smartphone, enabling local inference and rapid processing capabilities even on mobile devices. We make all models openly available under Apache 2.0 license further democratizing LLMs to a wider audience economically.

arxiv情報

著者 Pascal Pfeiffer,Philipp Singer,Yauhen Babakhin,Gabor Fodor,Nischay Dhankhar,Sri Satish Ambati
発行日 2024-07-12 14:09:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク