Mistral 7B

要約

優れたパフォーマンスと効率を実現するために設計された 70 億パラメータの言語モデルである Mistral 7B v0.1 を紹介します。
Mistral 7B は、評価されたすべてのベンチマークで Llama 2 13B を上回り、推論、数学、コード生成では Llama 1 34B を上回っています。
私たちのモデルは、グループ化クエリ アテンション (GQA) を利用して推論を高速化し、スライディング ウィンドウ アテンション (SWA) と組み合わせて、推論コストを削減しながら任意の長さのシーケンスを効果的に処理します。
また、指示に従うように微調整されたモデル、Mistral 7B — Instruct も提供しています。これは、人間のベンチマークと自動ベンチマークの両方で Llama 2 13B — Chat モデルを上回ります。
当社のモデルは、Apache 2.0 ライセンスに基づいてリリースされています。

要約(オリジナル)

We introduce Mistral 7B v0.1, a 7-billion-parameter language model engineered for superior performance and efficiency. Mistral 7B outperforms Llama 2 13B across all evaluated benchmarks, and Llama 1 34B in reasoning, mathematics, and code generation. Our model leverages grouped-query attention (GQA) for faster inference, coupled with sliding window attention (SWA) to effectively handle sequences of arbitrary length with a reduced inference cost. We also provide a model fine-tuned to follow instructions, Mistral 7B — Instruct, that surpasses the Llama 2 13B — Chat model both on human and automated benchmarks. Our models are released under the Apache 2.0 license.

arxiv情報

著者 Albert Q. Jiang,Alexandre Sablayrolles,Arthur Mensch,Chris Bamford,Devendra Singh Chaplot,Diego de las Casas,Florian Bressand,Gianna Lengyel,Guillaume Lample,Lucile Saulnier,Lélio Renard Lavaud,Marie-Anne Lachaux,Pierre Stock,Teven Le Scao,Thibaut Lavril,Thomas Wang,Timothée Lacroix,William El Sayed
発行日 2023-10-10 17:54:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク