Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

要約

最先端のマルチモーダル ビジョン言語モデルである Xmodel-VLM を紹介します。
コンシューマ GPU サーバーに効率的に導入できるように設計されています。
私たちの仕事は、大規模なマルチモーダル システムの広範な導入を妨げる法外なサービス コストに取り組むことで、業界の極めて重要な問題に直接取り組んでいます。
厳格なトレーニングを通じて、モーダルアライメントに LLaVA パラダイムを採用して、1B スケールの言語モデルをゼロから開発しました。
私たちが Xmodel-VLM と呼ぶその結果は、軽量でありながら強力なマルチモーダル ビジョン言語モデルです。
多数の古典的なマルチモーダル ベンチマークにわたる広範なテストにより、Xmodel-VLM はサイズが小さく、実行が高速であるにもかかわらず、より大きなモデルと同等のパフォーマンスを提供することが明らかになりました。
モデルのチェックポイントとコードは、GitHub (https://github.com/XiaoduoAILab/XmodelVLM) で公開されています。

要約(オリジナル)

We introduce Xmodel-VLM, a cutting-edge multimodal vision language model. It is designed for efficient deployment on consumer GPU servers. Our work directly confronts a pivotal industry issue by grappling with the prohibitive service costs that hinder the broad adoption of large-scale multimodal systems. Through rigorous training, we have developed a 1B-scale language model from the ground up, employing the LLaVA paradigm for modal alignment. The result, which we call Xmodel-VLM, is a lightweight yet powerful multimodal vision language model. Extensive testing across numerous classic multimodal benchmarks has revealed that despite its smaller size and faster execution, Xmodel-VLM delivers performance comparable to that of larger models. Our model checkpoints and code are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelVLM.

arxiv情報

著者 Wanting Xu,Yang Liu,Langping He,Xucheng Huang,Ling Jiang
発行日 2024-05-15 09:47:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク