MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

要約

マルチモーダル大規模言語モデル (MLLM) の開発は、さまざまな分野 (マルチモーダル エージェント、身体化されたインテリジェンスなど) での需要の増加に伴い、大幅な進歩を遂げています。
モデル駆動型のアプローチでは、多様なアーキテクチャを通じて MLLM の機能を強化しようとしていますが、その成果はますますわずかになってきています。
逆に、画像とテキストの指示データをスケールアップするデータ駆動型の方法は、より効果的ですが、データの多様性と複雑さが限られているという課題に直面しています。
高品質のデータの欠如は、MLLM にとって開発の大きな障壁となっています。
データ品質のボトルネックに対処するために、新しいマルチモーダル命令データ進化フレームワークである MMEvol を提案します。
このフレームワークは、きめの細かい知覚、認知推論、インタラクション進化の洗練された組み合わせを通じてデータ品質を繰り返し改善し、MLLM に強化された機能を提供する、より複雑で多様な画像テキスト命令データセットを生成します。
初期の命令セットである SEED-163K から始めて、私たちは MMEvol を利用して命令タイプの多様性を体系的に広げ、視覚的推論ステップを拡張して認知的推論能力を向上させ、画像内のきめの細かい情報を徹底的に調査して視覚的な理解と堅牢性を強化します。
私たちのアプローチの有効性を包括的に評価するために、13 の視覚言語タスクにわたって広範な定性分析と定量的実験を実施します。
初期シード データでトレーニングされたベースライン モデルと比較して、結果は、私たちの方法が平均 3.1 パーセント ポイントの精度向上を達成していることを示しています。
さらに、私たちのアプローチは、最先端のモデルと比較して大幅に少ないデータを使用して、9 つのタスクで最先端 (SOTA) のパフォーマンスに達します。

要約(オリジナル)

The development of Multimodal Large Language Models (MLLMs) has seen significant advancements with increasing demands in various fields (e.g., multimodal agents, embodied intelligence). While model-driven approaches attempt to enhance MLLMs capabilities through diverse architectures, the gains have become increasingly marginal. Conversely, data-driven methods, which scale up image-text instruction data, are more effective but face limited data diversity and complexity challenges. The absence of high-quality data constitutes a significant development barrier for MLLMs. To address the data quality bottleneck, we propose MMEvol, a novel multimodal instruction data evolution framework. This framework iteratively improve data quality through a refined combination of fine-grained perception, cognitive reasoning, and interaction evolution, generating a more complex and diverse image-text instruction dataset that empowers MLLMs with enhanced capabilities. Beginning with an initial set of instructions, SEED-163K, we utilize MMEvol to systematically broaden the diversity of instruction types, extend visual reasoning steps to improve cognitive reasoning abilities, and thoroughly explore fine-grained information within images to enhance visual understanding and robustness. To comprehensively evaluate the effectiveness of our approach, we conduct extensive qualitative analysis and quantitative experiments across 13 vision-language tasks. Compared to baseline models trained with the initial seed data, the results demonstrate that our method achieves an average accuracy improvement of 3.1 percentage points. Furthermore, our approach reaches state-of-the-art (SOTA) performance in nine tasks using significantly less data compared to state-of-the-art models.

arxiv情報

著者 Run Luo,Haonan Zhang,Longze Chen,Ting-En Lin,Xiong Liu,Yuchuan Wu,Min Yang,Minzheng Wang,Pengpeng Zeng,Lianli Gao,Heng Tao Shen,Yunshui Li,Xiaobo Xia,Fei Huang,Jingkuan Song,Yongbin Li
発行日 2024-12-31 14:46:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク