MLLM-DataEngine: An Iterative Refinement Approach for MLLM

要約

命令データセットの構築とベンチマークの両方におけるマルチモーダル大規模言語モデル (MLLM) の大きな進歩にも関わらず、トレーニングと評価が独立しているため、現在の MLLM は比較的低い人的コストで評価結果に基づいて能力をさらに向上させることが困難になっています。
この論文では、データ生成、モデルのトレーニング、評価の橋渡しをする新しい閉ループ システムである MLLM-DataEngine を提案します。
各ループ反復内で、MLLM-DataEngine は最初に評価結果に基づいてモデルの弱点を分析し、次に次のトレーニング反復用に適切な増分データセットを生成し、モデルの機能を反復的に強化します。
ベンチマークとは別の以前のデータ収集方法と比較して、MLLM-DataEngine によって生成されたデータは、より優れたターゲティング、品質、正確性を示します。
ターゲティングについては、ベンチマーク結果に基づいて各増分データセット内のさまざまなタイプのデータの比率を調整する、適応型不良ケース サンプリング モジュールを提案します。
品質に関しては、GPT-4 を利用して、指定された各データ型で高品質のデータを生成します。
正確さを期すためには、データ生成結果を迅速に設計することが重要です。
以前の手作りのプロンプトではなく、人間と GPT の間の複数ラウンドのインタラクションでプロンプトを最適化し、生成されたデータの正確性を大幅に向上させるインタラクティブ プロンプト最適化戦略を提案します。
広範な実験を通じて、当社の MLLM-DataEngine は、わずか数人の人間の参加だけで、ターゲットを絞った自動的な方法で MLLM 機能を強化できることがわかりました。
これが次の MLLM ビルディングの一般的なソリューションになることを願っています。
MLLM-DataEngine はオープンソース化されており、現在 https://github.com/opendatalab/MLLM-DataEngine で入手できます。

要約(オリジナル)

Despite the great advance of Multimodal Large Language Models (MLLMs) in both instruction dataset building and benchmarking, the independence of training and evaluation makes current MLLMs hard to further improve their capability under the guidance of evaluation results with a relatively low human cost. In this paper, we propose MLLM-DataEngine, a novel closed-loop system that bridges data generation, model training, and evaluation. Within each loop iteration, the MLLM-DataEngine first analyze the weakness of the model based on the evaluation results, then generate a proper incremental dataset for the next training iteration and enhance the model capability iteratively. Compared with previous data collection methods which are separate from the benchmarking, the data generated by MLLM-DataEngine shows better targeting, quality, and correctness. For targeting, we propose an Adaptive Bad-case Sampling module, which adjusts the ratio of different types of data within each incremental dataset based on the benchmarking results. For quality, we resort to GPT-4 to generate high-quality data with each given data type. For correctness, prompt design is critical for the data generation results. Rather than previous hand-crafted prompt, we propose an Interactive Prompt Optimization strategy, which optimizes the prompt with the multi-round interaction between human and GPT, and improve the correctness of generated data greatly. Through extensive experiments, we find our MLLM-DataEngine could boost the MLLM capability in a targeted and automatic manner, with only a few human participation. We hope it could be a general solution for the following MLLMs building. The MLLM-DataEngine has been open-sourced and is now available at https://github.com/opendatalab/MLLM-DataEngine.

arxiv情報

著者 Zhiyuan Zhao,Linke Ouyang,Bin Wang,Siyuan Huang,Pan Zhang,Xiaoyi Dong,Jiaqi Wang,Conghui He
発行日 2023-09-11 08:28:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク