MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity

要約

Vision Large Language Model (VLLM) のパフォーマンス向上におけるビジョン言語教師あり微調整の有効性にもかかわらず。
ただし、既存の視覚的命令チューニング データセットには次の制限があります。 (1) 命令アノテーションの品質: 既存の VLLM が強力なパフォーマンスを示しているにもかかわらず、これらの高度な VLLM によって生成された命令は依然として幻覚などの不正確さの問題を抱えている可能性があります。
(2) 命令と画像の多様性: 命令の種類の範囲が限られていることと、画像データの多様性の欠如は、多様で現実世界のシナリオに近い出力を生成するモデルの能力に影響を与える可能性があります。
これらの課題に対処するために、24 のドメインからの 973K の命令で構成される、高品質で多様なビジュアル命令チューニング データセット MMInstruct を構築します。
指示には 4 つのタイプがあります: 判断、多肢選択、長い視覚的質問への回答、および短い視覚的質問への回答。
MMInstruct を構築するために、GPT-4V、GPT-3.5、および手動修正を活用する命令生成データ エンジンを提案します。
当社の命令生成エンジンは、手動構築の 1/6 のコストで、半自動かつ低コストのマルチドメイン命令生成を可能にします。
広範な実験検証とアブレーション実験を通じて、MMInstruct が VLLM のパフォーマンスを大幅に向上できることを実証しました。たとえば、MMInstruct でのモデル微調整により、12 ベンチマーク中 10 で新しい最先端のパフォーマンスが達成されました。
コードとデータは https://github.com/yuecao0119/MMInstruct で入手できます。

要約(オリジナル)

Despite the effectiveness of vision-language supervised fine-tuning in enhancing the performance of Vision Large Language Models (VLLMs). However, existing visual instruction tuning datasets include the following limitations: (1) Instruction annotation quality: despite existing VLLMs exhibiting strong performance, instructions generated by those advanced VLLMs may still suffer from inaccuracies, such as hallucinations. (2) Instructions and image diversity: the limited range of instruction types and the lack of diversity in image data may impact the model’s ability to generate diversified and closer to real-world scenarios outputs. To address these challenges, we construct a high-quality, diverse visual instruction tuning dataset MMInstruct, which consists of 973K instructions from 24 domains. There are four instruction types: Judgement, Multiple-Choice, Long Visual Question Answering and Short Visual Question Answering. To construct MMInstruct, we propose an instruction generation data engine that leverages GPT-4V, GPT-3.5, and manual correction. Our instruction generation engine enables semi-automatic, low-cost, and multi-domain instruction generation at 1/6 the cost of manual construction. Through extensive experiment validation and ablation experiments, we demonstrate that MMInstruct could significantly improve the performance of VLLMs, e.g., the model fine-tuning on MMInstruct achieves new state-of-the-art performance on 10 out of 12 benchmarks. The code and data shall be available at https://github.com/yuecao0119/MMInstruct.

arxiv情報

著者 Yangzhou Liu,Yue Cao,Zhangwei Gao,Weiyun Wang,Zhe Chen,Wenhai Wang,Hao Tian,Lewei Lu,Xizhou Zhu,Tong Lu,Yu Qiao,Jifeng Dai
発行日 2024-07-22 17:55:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク