Jamba-1.5: Hybrid Transformer-Mamba Models at Scale

要約

Jamba アーキテクチャに基づいて命令を調整した新しい大規模言語モデルである Jamba-1.5 を紹介します。
Jamba は、エキスパート アーキテクチャのハイブリッド Transformer と Mamba を組み合わせたもので、Transformer モデルと同等以上の品質を維持しながら、コンテキスト長全体で高いスループットと低いメモリ使用量を提供します。
94B のアクティブ パラメーターを備えた Jamba-1.5-Large と、12B のアクティブ パラメーターを備えた Jamba-1.5-Mini の 2 つのモデル サイズをリリースします。
どちらのモデルも、さまざまな会話機能や命令追従機能に合わせて微調整されており、有効コンテキスト長は 256K トークンで、オープンウェイト モデルの中で最大です。
コスト効率の高い推論をサポートするために、品質を損なうことなく 256K トークンのコンテキストを処理する際に、8 個の 80GB GPU を搭載したマシンに Jamba-1.5-Large を適合させることができる新しい量子化手法である ExpertsInt8 を導入しました。
一連の学術ベンチマークとチャットボット ベンチマークで評価すると、Jamba-1.5 モデルは優れた結果を達成しながら、高いスループットを提供し、ロングコンテキスト ベンチマークで他のオープンウェイト モデルを上回るパフォーマンスを発揮します。
両方のサイズのモデルの重みは、Jamba オープン モデル ライセンスに基づいて公開されており、ExpertsInt8 をオープン ソースとしてリリースします。

要約(オリジナル)

We present Jamba-1.5, new instruction-tuned large language models based on our Jamba architecture. Jamba is a hybrid Transformer-Mamba mixture of experts architecture, providing high throughput and low memory usage across context lengths, while retaining the same or better quality as Transformer models. We release two model sizes: Jamba-1.5-Large, with 94B active parameters, and Jamba-1.5-Mini, with 12B active parameters. Both models are fine-tuned for a variety of conversational and instruction-following capabilties, and have an effective context length of 256K tokens, the largest amongst open-weight models. To support cost-effective inference, we introduce ExpertsInt8, a novel quantization technique that allows fitting Jamba-1.5-Large on a machine with 8 80GB GPUs when processing 256K-token contexts without loss of quality. When evaluated on a battery of academic and chatbot benchmarks, Jamba-1.5 models achieve excellent results while providing high throughput and outperforming other open-weight models on long-context benchmarks. The model weights for both sizes are publicly available under the Jamba Open Model License and we release ExpertsInt8 as open source.

arxiv情報

著者 Jamba Team,Barak Lenz,Alan Arazi,Amir Bergman,Avshalom Manevich,Barak Peleg,Ben Aviram,Chen Almagor,Clara Fridman,Dan Padnos,Daniel Gissin,Daniel Jannai,Dor Muhlgay,Dor Zimberg,Edden M Gerber,Elad Dolev,Eran Krakovsky,Erez Safahi,Erez Schwartz,Gal Cohen,Gal Shachaf,Haim Rozenblum,Hofit Bata,Ido Blass,Inbal Magar,Itay Dalmedigos,Jhonathan Osin,Julie Fadlon,Maria Rozman,Matan Danos,Michael Gokhman,Mor Zusman,Naama Gidron,Nir Ratner,Noam Gat,Noam Rozen,Oded Fried,Ohad Leshno,Omer Antverg,Omri Abend,Opher Lieber,Or Dagan,Orit Cohavi,Raz Alon,Ro’i Belson,Roi Cohen,Rom Gilad,Roman Glozman,Shahar Lev,Shaked Meirom,Tal Delbari,Tal Ness,Tomer Asida,Tom Ben Gal,Tom Braude,Uriya Pumerantz,Yehoshua Cohen,Yonatan Belinkov,Yuval Globerson,Yuval Peleg Levy,Yoav Shoham
発行日 2024-08-22 17:38:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク