要約
NVLM 1.0 は、視覚言語タスクで最先端の結果を達成するフロンティアクラスのマルチモーダル大規模言語モデル (LLM) ファミリーであり、主要な独自モデル (GPT-4o など) とオープンアクセスに匹敵します。
モデル (例: Llama 3-V 405B および InternVL 2)。
注目すべきことに、NVLM 1.0 は、マルチモーダル トレーニング後、LLM バックボーンよりもテキストのみのパフォーマンスが向上しています。
モデル設計の観点から、デコーダのみのマルチモーダル LLM (LLaVA など) とクロスアテンションベースのモデル (Flamingo など) の間で包括的な比較を実行します。
両方のアプローチの長所と短所に基づいて、トレーニング効率とマルチモーダル推論能力の両方を強化する新しいアーキテクチャを提案します。
さらに、タイルベースの動的高解像度画像用の 1 次元タイルタグ付け設計を導入し、マルチモーダル推論および OCR 関連タスクのパフォーマンスを大幅に向上させます。
トレーニング データに関しては、マルチモーダルな事前トレーニングおよび教師あり微調整データセットに関する詳細情報を細心の注意を払って厳選し、提供しています。
私たちの調査結果は、すべてのアーキテクチャにおいて、たとえ事前トレーニング段階であっても、規模よりもデータセットの品質とタスクの多様性が重要であることを示しています。
特に、当社は NVLM-1.0 モデル向けの実稼働グレードのマルチモダリティを開発し、LLM バックボーンと比較してテキストのみのパフォーマンスを維持、さらには向上させながら、視覚言語タスクで優れた性能を発揮できるようにします。
これを達成するために、私たちは高品質のテキストのみのデータセットを作成してマルチモーダル トレーニングに統合し、大量のマルチモーダル数学および推論データとともに、モダリティ全体での数学およびコーディング機能の強化につながります。
この分野での研究を進めるために、モデルの重みを公開し、コミュニティ向けにコードをオープンソース化します: https://nvlm-project.github.io/。
要約(オリジナル)
We introduce NVLM 1.0, a family of frontier-class multimodal large language models (LLMs) that achieve state-of-the-art results on vision-language tasks, rivaling the leading proprietary models (e.g., GPT-4o) and open-access models (e.g., Llama 3-V 405B and InternVL 2). Remarkably, NVLM 1.0 shows improved text-only performance over its LLM backbone after multimodal training. In terms of model design, we perform a comprehensive comparison between decoder-only multimodal LLMs (e.g., LLaVA) and cross-attention-based models (e.g., Flamingo). Based on the strengths and weaknesses of both approaches, we propose a novel architecture that enhances both training efficiency and multimodal reasoning capabilities. Furthermore, we introduce a 1-D tile-tagging design for tile-based dynamic high-resolution images, which significantly boosts performance on multimodal reasoning and OCR-related tasks. Regarding training data, we meticulously curate and provide detailed information on our multimodal pretraining and supervised fine-tuning datasets. Our findings indicate that dataset quality and task diversity are more important than scale, even during the pretraining phase, across all architectures. Notably, we develop production-grade multimodality for the NVLM-1.0 models, enabling them to excel in vision-language tasks while maintaining and even improving text-only performance compared to their LLM backbones. To achieve this, we craft and integrate a high-quality text-only dataset into multimodal training, alongside a substantial amount of multimodal math and reasoning data, leading to enhanced math and coding capabilities across modalities. To advance research in the field, we are releasing the model weights and will open-source the code for the community: https://nvlm-project.github.io/.
arxiv情報
著者 | Wenliang Dai,Nayeon Lee,Boxin Wang,Zhuoling Yang,Zihan Liu,Jon Barker,Tuomas Rintamaki,Mohammad Shoeybi,Bryan Catanzaro,Wei Ping |
発行日 | 2024-09-17 17:59:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google