SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

要約

モデルの重み付け、チューニング タスク、視覚的な埋め込みを組み合わせた多用途マルチモーダル大規模言語モデル (MLLM) である SPHINX を紹介します。
まず、視覚と言語の連携を強化するために、事前トレーニング中に大規模言語モデル (LLM) をフリーズ解除し、実世界のデータと合成データによってトレーニングされた LLM 間に重み混合戦略を導入します。
2 つのドメインからの重みを直接統合することにより、混合 LLM は、有利な堅牢性を備えた多様なセマンティクスを効率的に組み込むことができます。
次に、多目的機能を有効にするために、さまざまなタスクを混合して共同視覚的命令を調整し、タスク間の競合を避けるためにタスク固有の命令を設計します。
基本的な視覚的な質問応答に加えて、領域レベルの理解、キャプションのグラウンディング、文書レイアウトの検出、人間の姿勢推定などのより困難なタスクが含まれており、さまざまなシナリオにわたる相互強化に貢献します。
さらに、さまざまなネットワーク アーキテクチャ、事前トレーニング パラダイム、情報の粒度から包括的な視覚的埋め込みを抽出し、より堅牢な画像表現を備えた言語モデルを提供することを提案します。
私たちが提案したジョイントミキシングに基づいて、SPHINX は幅広いアプリケーションで優れたマルチモーダル理解機能を発揮します。
これに加えて、高解像度画像のきめの細かい外観をより適切にキャプチャすることを目的とした効率的な戦略をさらに提案します。
さまざまなスケールと高解像度のサブイメージを組み合わせることで、SPHINX は既存の評価ベンチマークで優れた視覚的解析と推論パフォーマンスを実現します。
私たちの研究が、将来の MLLM 研究における共同混合の探求に光を当てることができることを願っています。
コードは https://github.com/Alpha-VLLM/LLaMA2- Accessories でリリースされています。

要約(オリジナル)

We present SPHINX, a versatile multi-modal large language model (MLLM) with a joint mixing of model weights, tuning tasks, and visual embeddings. First, for stronger vision-language alignment, we unfreeze the large language model (LLM) during pre-training, and introduce a weight mix strategy between LLMs trained by real-world and synthetic data. By directly integrating the weights from two domains, the mixed LLM can efficiently incorporate diverse semantics with favorable robustness. Then, to enable multi-purpose capabilities, we mix a variety of tasks for joint visual instruction tuning, and design task-specific instructions to avoid inter-task conflict. In addition to the basic visual question answering, we include more challenging tasks such as region-level understanding, caption grounding, document layout detection, and human pose estimation, contributing to mutual enhancement over different scenarios. Additionally, we propose to extract comprehensive visual embeddings from various network architectures, pre-training paradigms, and information granularity, providing language models with more robust image representations. Based on our proposed joint mixing, SPHINX exhibits superior multi-modal understanding capabilities on a wide range of applications. On top of this, we further propose an efficient strategy aiming to better capture fine-grained appearances of high-resolution images. With a mixing of different scales and high-resolution sub-images, SPHINX attains exceptional visual parsing and reasoning performance on existing evaluation benchmarks. We hope our work may cast a light on the exploration of joint mixing in future MLLM research. Code is released at https://github.com/Alpha-VLLM/LLaMA2-Accessory.

arxiv情報

著者 Ziyi Lin,Chris Liu,Renrui Zhang,Peng Gao,Longtian Qiu,Han Xiao,Han Qiu,Chen Lin,Wenqi Shao,Keqin Chen,Jiaming Han,Siyuan Huang,Yichi Zhang,Xuming He,Hongsheng Li,Yu Qiao
発行日 2023-11-13 18:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク