On the Evaluation and Refinement of Vision-Language Instruction Tuning Datasets

要約

マルチモーダル命令チューニングに関する新たな一連の研究が行われており、最近、これらのモデルを評価するための一連のベンチマークが提案されています。
モデルを直接評価する代わりに、このペーパーでは、Vision-Language struct-Tuning (VLIT) データセットの評価を試みます。
また、私たちは、万能の VLIT モデルを開発するためのデータセットを構築する方法を模索しています。これは、VLIT モデルのベンチマークのための基礎的なプロトコルを確立するのにも役立つ可能性があると考えています。
未解決の問題のままである VLIT データセットの効果的な評価については、1 つのデータセットを調整し、他のデータセットを順番に評価する、調整相互評価パラダイムを提案します。
各シングルチューン評価実験セットについて、特定のデータセットまたはサンプルの品質を定量化するために、BLEU、METEOR、ROUGE-L を含むキャプション メトリクスのセットによって取得される平均スコアとしてメタ品質 (MQ) を定義します。
これに基づいて、データセットの包括性を評価するために、すべての調整評価セットをカバーするデータセット品質 (DQ) を開発します。
包括的なデータセットを構築し、実用的なアプリケーションのための強力なモデルを開発するための基礎を築くために、各サンプルの全側面の品質を定量化するサンプル品質 (SQ) を定義します。
広範な実験により、提案された評価パラダイムの合理性が検証されています。
全体的な評価に基づいて、各データセットからより高い SQ を持つサンプルを収集することにより、新しいデータセット REVO-LION (REfining VisiOn-Language InstructiOn tuNing) を構築します。
驚くべきことに、完全なデータの半分しかない場合でも、REVO-LION でトレーニングされたモデルは、すべての VLIT データセットを単純に追加するのと同等のパフォーマンスを達成できます。
さらに、REVO-LION は強力なモデルの開発を容易にするだけでなく、この分野での将来の研究のための便利なベンチマークとして機能するように設計された評価セットも組み込んでいます。

要約(オリジナル)

There is an emerging line of research on multimodal instruction tuning, and a line of benchmarks has been proposed for evaluating these models recently. Instead of evaluating the models directly, in this paper, we try to evaluate the Vision-Language Instruction-Tuning (VLIT) datasets. Also, we seek the way of building a dataset for developing an all-powerful VLIT model, which we believe could also be of utility for establishing a grounded protocol for benchmarking VLIT models. For effective evaluation of VLIT datasets that remains an open question, we propose a tune-cross-evaluation paradigm: tuning on one dataset and evaluating on the others in turn. For each single tune-evaluation experiment set, we define the Meta Quality (MQ) as the mean score obtained by a set of caption metrics including BLEU, METEOR, and ROUGE-L to quantify the quality of a certain dataset or a sample. On this basis, to evaluate the comprehensiveness of a dataset, we develop the Dataset Quality (DQ) covering all tune-evaluation sets. To lay the foundation for building a comprehensive dataset and developing an all-powerful model for practical applications, we define the Sample Quality (SQ) to quantify the all-sided quality of each sample. Extensive experiments validate the rationality of the proposed evaluation paradigm. Based on the holistic evaluation, we build a new dataset, REVO-LION (REfining VisiOn-Language InstructiOn tuNing), by collecting samples with higher SQ from each dataset. Remarkably, even with only half of the complete data, the model trained on REVO-LION can achieve the performance comparable to simply adding all VLIT datasets up. Furthermore, REVO-LION not only facilitates the development of a powerful model but also incorporates an evaluation set, which is designed to serve as a convenient benchmark for future research in the field.

arxiv情報

著者 Ning Liao,Shaofeng Zhang,Renqiu Xia,Min Cao,Yu Qiao,Junchi Yan
発行日 2023-12-30 02:19:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク