MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

要約

マルチモーダル大規模言語モデル (MLLM) の開発は大幅に進歩しました。
しかし、マルチモーダルな指示データの量と質が、その進歩における重大なボトルネックとして浮上しています。
マルチモーダルな命令データを手動で作成するのは時間がかかり非効率的であり、複雑性の高い命令を作成する際に課題が生じます。
さらに、ブラックボックス商用モデル (GPT-4o、GPT-4V など) から命令データを抽出すると、多くの場合、単純化された命令データが生成され、パフォーマンスがこれらのモデルの性能に制限されます。
多様で複雑な指示データを管理するという課題は依然として大きい。
我々は、きめの細かい知覚進化、認知推論進化、インタラクション進化を組み合わせた新しいマルチモーダル命令データ進化フレームワークである MMEvol を提案します。
この反復的なアプローチは、データ品質のボトルネックを突破して、複雑で多様な画像テキスト命令データセットを生成し、それによって MLLM に強化された機能を提供します。
初期の命令セットである SEED-163K から始めて、MMEvol を利用して命令の種類の多様性を体系的に拡大し、推論ステップを統合して認知能力を強化し、画像から詳細な情報を抽出して視覚的な理解と堅牢性を向上させます。
データの有効性を包括的に評価するために、進化したデータを使用して LLaVA-NeXT をトレーニングし、13 の視覚言語タスクにわたる実験を実施します。
シード データでトレーニングされたベースラインと比較して、私たちのアプローチは平均 3.1 ポイントの精度向上を達成し、これらのタスクのうち 9 つで最先端 (SOTA) のパフォーマンスに達しました。

要約(オリジナル)

The development of Multimodal Large Language Models (MLLMs) has seen significant advancements. However, the quantity and quality of multimodal instruction data have emerged as significant bottlenecks in their progress. Manually creating multimodal instruction data is both time-consuming and inefficient, posing challenges in producing instructions of high complexity. Moreover, distilling instruction data from black-box commercial models (e.g., GPT-4o, GPT-4V) often results in simplistic instruction data, which constrains performance to that of these models. The challenge of curating diverse and complex instruction data remains substantial. We propose MMEvol, a novel multimodal instruction data evolution framework that combines fine-grained perception evolution, cognitive reasoning evolution, and interaction evolution. This iterative approach breaks through data quality bottlenecks to generate a complex and diverse image-text instruction dataset, thereby empowering MLLMs with enhanced capabilities. Beginning with an initial set of instructions, SEED-163K, we utilize MMEvol to systematically broadens the diversity of instruction types, integrates reasoning steps to enhance cognitive capabilities, and extracts detailed information from images to improve visual understanding and robustness. To comprehensively evaluate the effectiveness of our data, we train LLaVA-NeXT using the evolved data and conduct experiments across 13 vision-language tasks. Compared to the baseline trained with seed data, our approach achieves an average accuracy improvement of 3.1 points and reaches state-of-the-art (SOTA) performance on 9 of these tasks.

arxiv情報

著者 Run Luo,Haonan Zhang,Longze Chen,Ting-En Lin,Xiong Liu,Yuchuan Wu,Min Yang,Minzheng Wang,Pengpeng Zeng,Lianli Gao,Heng Tao Shen,Yunshui Li,Xiaobo Xia,Fei Huang,Jingkuan Song,Yongbin Li
発行日 2024-09-09 17:44:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク