Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

要約

この研究では、マルチモダリティ視覚言語モデル (VLM) を強化するシンプルで効果的なフレームワークである Mini-Gemini を紹介します。
VLM の進歩により、基本的な視覚的な対話や推論が容易になったにもかかわらず、GPT-4 や Gemini などの高度なモデルと比較してパフォーマンスのギャップは依然として存在します。
私たちは、高解像度のビジュアル トークン、高品質のデータ、VLM ガイドによる生成という 3 つの側面から、より優れたパフォーマンスと Any-to-Any ワークフローを実現する VLM の可能性を掘り起こし、ギャップを縮めようとしています。
ビジュアル トークンを強化するために、ビジュアル トークン数を増やさずに高解像度の洗練のために追加のビジュアル エンコーダーを利用することを提案します。
さらに、正確な画像の理解と推論に基づく生成を促進する高品質のデータセットを構築し、現在の VLM の運用範囲を拡大します。
一般に、Mini-Gemini は VLM の可能性をさらに掘り起こし、現在のフレームワークに画像の理解、推論、生成を同時に提供します。
Mini-Gemini は、2B から 34B までの一連の高密度および MoE 大規模言語モデル (LLM) をサポートしています。
いくつかのゼロショットベンチマークで最高のパフォーマンスを達成し、開発されたプライベートモデルをも上回ることが実証されています。
コードとモデルは https://github.com/dvlab-research/MiniGemini で入手できます。

要約(オリジナル)

In this work, we introduce Mini-Gemini, a simple and effective framework enhancing multi-modality Vision Language Models (VLMs). Despite the advancements in VLMs facilitating basic visual dialog and reasoning, a performance gap persists compared to advanced models like GPT-4 and Gemini. We try to narrow the gap by mining the potential of VLMs for better performance and any-to-any workflow from three aspects, i.e., high-resolution visual tokens, high-quality data, and VLM-guided generation. To enhance visual tokens, we propose to utilize an additional visual encoder for high-resolution refinement without increasing the visual token count. We further construct a high-quality dataset that promotes precise image comprehension and reasoning-based generation, expanding the operational scope of current VLMs. In general, Mini-Gemini further mines the potential of VLMs and empowers current frameworks with image understanding, reasoning, and generation simultaneously. Mini-Gemini supports a series of dense and MoE Large Language Models (LLMs) from 2B to 34B. It is demonstrated to achieve leading performance in several zero-shot benchmarks and even surpasses the developed private models. Code and models are available at https://github.com/dvlab-research/MiniGemini.

arxiv情報

著者 Yanwei Li,Yuechen Zhang,Chengyao Wang,Zhisheng Zhong,Yixin Chen,Ruihang Chu,Shaoteng Liu,Jiaya Jia
発行日 2024-03-27 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク