SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

要約

Sphinx-Xは、Sphinxで開発された広範なマルチモダリティ大手言語モデル(MLLM)シリーズを提案します。
アーキテクチャとトレーニングの効率を改善するために、冗長な視覚エンコーダーを削除し、スキップトークンで完全にパッドしたサブイメージをバイパスし、マルチステージトレーニングを1段階のオールインパラダイムに簡素化することにより、Sphinxフレームワークを変更します。
MLLMSの可能性を完全に解き放つために、言語、ビジョン、ビジョン言語タスクの公的に利用可能なリソースをカバーする包括的なマルチドメインおよびマルチモーダルデータセットを組み立てます。
さらに、キュレーションされたOCR集中的でセットマークデータセットでこのコレクションを豊かにし、多様性と一般性を拡大します。
Tinyllama1.1b、internlm2-7b、llama2-13b、mixtral8x7bを含むさまざまなベースLLMをトレーニングすることにより、パラメーターサイズと多言語機能が異なるMLLMのスペクトルを取得します。
包括的なベンチマークは、マルチモーダルパフォーマンスとデータスケールとの間に強い相関関係を明らかにしています。
コードとモデルはhttps://github.com/alpha-vllm/llama2-accessoryでリリースされます

要約(オリジナル)

We propose SPHINX-X, an extensive Multimodality Large Language Model (MLLM) series developed upon SPHINX. To improve the architecture and training efficiency, we modify the SPHINX framework by removing redundant visual encoders, bypassing fully-padded sub-images with skip tokens, and simplifying multi-stage training into a one-stage all-in-one paradigm. To fully unleash the potential of MLLMs, we assemble a comprehensive multi-domain and multimodal dataset covering publicly available resources in language, vision, and vision-language tasks. We further enrich this collection with our curated OCR intensive and Set-of-Mark datasets, extending the diversity and generality. By training over different base LLMs including TinyLlama1.1B, InternLM2-7B, LLaMA2-13B, and Mixtral8x7B, we obtain a spectrum of MLLMs that vary in parameter size and multilingual capabilities. Comprehensive benchmarking reveals a strong correlation between the multi-modal performance with the data and parameter scales. Code and models are released at https://github.com/Alpha-VLLM/LLaMA2-Accessory

arxiv情報

著者 Dongyang Liu,Renrui Zhang,Longtian Qiu,Siyuan Huang,Weifeng Lin,Shitian Zhao,Shijie Geng,Ziyi Lin,Peng Jin,Kaipeng Zhang,Wenqi Shao,Chao Xu,Conghui He,Junjun He,Hao Shao,Pan Lu,Hongsheng Li,Yu Qiao,Peng Gao
発行日 2025-03-21 10:19:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク