要約
優れたパフォーマンスと効率を実現するために設計された 70 億パラメータの言語モデルである Mistral 7B v0.1 を紹介します。
Mistral 7B は、評価されたすべてのベンチマークで Llama 2 13B を上回り、推論、数学、コード生成では Llama 1 34B を上回っています。
私たちのモデルは、グループ化クエリ アテンション (GQA) を利用して推論を高速化し、スライディング ウィンドウ アテンション (SWA) と組み合わせて、推論コストを削減しながら任意の長さのシーケンスを効果的に処理します。
また、指示に従うように微調整されたモデル、Mistral 7B — Instruct も提供しています。これは、人間のベンチマークと自動ベンチマークの両方で Llama 2 13B — Chat モデルを上回ります。
当社のモデルは、Apache 2.0 ライセンスに基づいてリリースされています。
要約(オリジナル)
We introduce Mistral 7B v0.1, a 7-billion-parameter language model engineered for superior performance and efficiency. Mistral 7B outperforms Llama 2 13B across all evaluated benchmarks, and Llama 1 34B in reasoning, mathematics, and code generation. Our model leverages grouped-query attention (GQA) for faster inference, coupled with sliding window attention (SWA) to effectively handle sequences of arbitrary length with a reduced inference cost. We also provide a model fine-tuned to follow instructions, Mistral 7B — Instruct, that surpasses the Llama 2 13B — Chat model both on human and automated benchmarks. Our models are released under the Apache 2.0 license.
arxiv情報
著者 | Albert Q. Jiang,Alexandre Sablayrolles,Arthur Mensch,Chris Bamford,Devendra Singh Chaplot,Diego de las Casas,Florian Bressand,Gianna Lengyel,Guillaume Lample,Lucile Saulnier,Lélio Renard Lavaud,Marie-Anne Lachaux,Pierre Stock,Teven Le Scao,Thibaut Lavril,Thomas Wang,Timothée Lacroix,William El Sayed |
発行日 | 2023-10-10 17:54:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google