VIGC: Visual Instruction Generation and Correction

要約

ビジュアル エンコーダと大規模言語モデル (LLM) の統合により、マルチモーダル大規模言語モデル (MLLM) の最近の進歩が促進されました。
しかし、視覚言語タスク用の高品質な命令調整データが不足していることが依然として課題です。
LLaVA などの現在の主要なパラダイムは、言語のみの GPT-4 に依存してデータを生成するため、事前に注釈が付けられた画像キャプションと検出境界ボックスが必要となり、画像の詳細を理解することが困難になります。
この問題に対する実際的な解決策は、利用可能なマルチモーダル大規模言語モデル (MLLM) を利用して、視覚言語タスク用の命令データを生成することです。
ただし、現在アクセス可能な MLLM は、不適切な応答を生成し、誤った情報を生成する傾向があるため、対応する LLM ほど強力ではないことに注意してください。
現在の問題に対処するソリューションとして、この論文では、マルチモーダル大規模言語モデルが命令チューニング データを生成し、その品質をオンザフライで段階的に向上できるようにするビジュアル命令生成および修正 (VIGC) フレームワークを提案します。
具体的には、ビジュアル命令生成 (VIG) は、ビジョン言語モデルをガイドして、さまざまな命令チューニング データを生成します。
生成品質を確保するために、Visual struction Correction (VIC) は反復更新メカニズムを採用し、VIG によって生成されたデータの不正確さを修正し、幻覚のリスクを効果的に軽減します。
VIGC が生成する多様で高品質なデータを活用して、主流モデルを微調整し、さまざまな評価に基づいてデータ品質を検証します。
実験結果は、VIGC が言語のみのデータ生成方法の欠点を補うだけでなく、ベンチマークのパフォーマンスを効果的に向上させることを示しています。
モデル、データセット、コードは一般公開されます。

要約(オリジナル)

The integration of visual encoders and large language models (LLMs) has driven recent progress in multimodal large language models (MLLMs). However, the scarcity of high-quality instruction-tuning data for vision-language tasks remains a challenge. The current leading paradigm, such as LLaVA, relies on language-only GPT-4 to generate data, which requires pre-annotated image captions and detection bounding boxes, suffering from understanding image details. A practical solution to this problem would be to utilize the available multimodal large language models (MLLMs) to generate instruction data for vision-language tasks. However, it’s worth noting that the currently accessible MLLMs are not as powerful as their LLM counterparts, as they tend to produce inadequate responses and generate false information. As a solution for addressing the current issue, this paper proposes the Visual Instruction Generation and Correction (VIGC) framework that enables multimodal large language models to generate instruction-tuning data and progressively enhance its quality on-the-fly. Specifically, Visual Instruction Generation (VIG) guides the vision-language model to generate diverse instruction-tuning data. To ensure generation quality, Visual Instruction Correction (VIC) adopts an iterative update mechanism to correct any inaccuracies in data produced by VIG, effectively reducing the risk of hallucination. Leveraging the diverse, high-quality data generated by VIGC, we finetune mainstream models and validate data quality based on various evaluations. Experimental results demonstrate that VIGC not only compensates for the shortcomings of language-only data generation methods, but also effectively enhances the benchmark performance. The models, datasets, and code will be made publicly available.

arxiv情報

著者 Bin Wang,Fan Wu,Xiao Han,Jiahui Peng,Huaping Zhong,Pan Zhang,Xiaoyi Dong,Weijia Li,Wei Li,Jiaqi Wang,Conghui He
発行日 2023-08-24 11:21:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク