Nemotron-4 15B Technical Report

要約

8 兆個のテキスト トークンでトレーニングされた 150 億パラメータの大規模多言語言語モデルである Nemotron-4 15B を紹介します。
Nemotron-4 15B は、英語、多言語、およびコーディングのタスクで評価した場合に強力なパフォーマンスを示します。7 つの下流評価領域のうち 4 領域で既存の同様のサイズのオープン モデルすべてを上回り、残りの領域では主要なオープン モデルに匹敵するパフォーマンスを達成します。
具体的には、Nemotron-4 15B は、すべての同様のサイズのモデルの中で最高の多言語機能を示し、4 倍を超えるモデルや多言語タスクに明示的に特化したモデルよりも優れたパフォーマンスを発揮します。

要約(オリジナル)

We introduce Nemotron-4 15B, a 15-billion-parameter large multilingual language model trained on 8 trillion text tokens. Nemotron-4 15B demonstrates strong performance when assessed on English, multilingual, and coding tasks: it outperforms all existing similarly-sized open models on 4 out of 7 downstream evaluation areas and achieves competitive performance to the leading open models in the remaining ones. Specifically, Nemotron-4 15B exhibits the best multilingual capabilities of all similarly-sized models, even outperforming models over four times larger and those explicitly specialized for multilingual tasks.

arxiv情報

著者 Jupinder Parmar,Shrimai Prabhumoye,Joseph Jennings,Mostofa Patwary,Sandeep Subramanian,Dan Su,Chen Zhu,Deepak Narayanan,Aastha Jhunjhunwala,Ayush Dattagupta,Vibhu Jawa,Jiwei Liu,Ameya Mahabaleshwarkar,Osvald Nitski,Annika Brundyn,James Maki,Miguel Martinez,Jiaxuan You,John Kamalu,Patrick LeGresley,Denys Fridman,Jared Casper,Ashwath Aithal,Oleksii Kuchaiev,Mohammad Shoeybi,Jonathan Cohen,Bryan Catanzaro
発行日 2024-02-27 15:22:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク