Pixtral 12B

要約

120 億パラメータのマルチモーダル言語モデルである Pixtral-12B を紹介します。
Pixtral-12B は、自然画像とドキュメントの両方を理解できるようにトレーニングされており、さまざまなマルチモーダル ベンチマークで優れたパフォーマンスを達成し、多くの大型モデルを上回っています。
多くのオープンソース モデルとは異なり、Pixtral はそのサイズに比べて最先端のテキスト モデルでもあり、マルチモーダル タスクで優れた性能を発揮するために自然言語のパフォーマンスに妥協しません。
Pixtral は、ゼロからトレーニングされた新しいビジョン エンコーダーを使用しており、自然な解像度とアスペクト比で画像を取り込むことができます。
これにより、ユーザーは画像の処理に使用するトークンの数を柔軟に設定できるようになります。
Pixtral は、128K トークンの長いコンテキスト ウィンドウ内で任意の数の画像を処理することもできます。
Pixtral 12B は、同様のサイズの他のオープン モデル (Llama-3.2 11B & Qwen-2-VL 7B) よりも大幅に優れています。
また、7 分の 1 の小型ながら、Llama-3.2 90B のようなはるかに大型のオープン モデルよりも優れたパフォーマンスを発揮します。
さらに、実用的なシナリオでビジョン言語モデルを評価するためのオープンソース ベンチマーク MM-MT-Bench に貢献し、マルチモーダル LLM の標準化された評価プロトコルの詳細な分析とコードを提供します。
Pixtral-12B は、Apache 2.0 ライセンスに基づいてリリースされています。

要約(オリジナル)

We introduce Pixtral-12B, a 12–billion-parameter multimodal language model. Pixtral-12B is trained to understand both natural images and documents, achieving leading performance on various multimodal benchmarks, surpassing a number of larger models. Unlike many open-source models, Pixtral is also a cutting-edge text model for its size, and does not compromise on natural language performance to excel in multimodal tasks. Pixtral uses a new vision encoder trained from scratch, which allows it to ingest images at their natural resolution and aspect ratio. This gives users flexibility on the number of tokens used to process an image. Pixtral is also able to process any number of images in its long context window of 128K tokens. Pixtral 12B substanially outperforms other open models of similar sizes (Llama-3.2 11B \& Qwen-2-VL 7B). It also outperforms much larger open models like Llama-3.2 90B while being 7x smaller. We further contribute an open-source benchmark, MM-MT-Bench, for evaluating vision-language models in practical scenarios, and provide detailed analysis and code for standardized evaluation protocols for multimodal LLMs. Pixtral-12B is released under Apache 2.0 license.

arxiv情報

著者 Pravesh Agrawal,Szymon Antoniak,Emma Bou Hanna,Devendra Chaplot,Jessica Chudnovsky,Saurabh Garg,Theophile Gervet,Soham Ghosh,Amélie Héliou,Paul Jacob,Albert Q. Jiang,Timothée Lacroix,Guillaume Lample,Diego Las Casas,Thibaut Lavril,Teven Le Scao,Andy Lo,William Marshall,Louis Martin,Arthur Mensch,Pavankumar Muddireddy,Valera Nemychnikova,Marie Pellat,Patrick Von Platen,Nikhil Raghuraman,Baptiste Rozière,Alexandre Sablayrolles,Lucile Saulnier,Romain Sauvestre,Wendy Shang,Roman Soletskyi,Lawrence Stewart,Pierre Stock,Joachim Studnia,Sandeep Subramanian,Sagar Vaze,Thomas Wang
発行日 2024-10-09 17:16:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク