REVO-LION: Evaluating and Refining Vision-Language Instruction Tuning Datasets

要約

マルチモーダル命令チューニングに関する新たな一連の研究が行われており、最近、これらのモデルを評価するための一連のベンチマークが提案されています。
モデルを直接評価する代わりに、この論文では、視覚言語命令調整 (VLIT) データセット自体を評価し、さらに強力な VLIT モデルを開発するためのデータセットを構築する方法を模索します。
VLIT モデルのベンチマーク用の接地されたプロトコルを確立するためのユーティリティ。
未解決の疑問が残っている VLIT データセットの効果的な分析のために、私たちは調整クロス評価パラダイムを提案します。つまり、1 つのデータセットを調整し、他のデータセットを順番に評価します。
各シングルチューン評価実験セットについて、特定のデータセットまたはサンプルの品質を定量化するために、BLEU、METEOR、ROUGE-L を含む一連のキャプション メトリックによって測定された平均スコアとしてメタ品質 (MQ) を定義します。
これに基づいて、データセットの包括性を評価するために、すべての調整評価セットをカバーするデータセット品質 (DQ) を開発します。
包括的なデータセットを構築し、実用的なアプリケーションのための強力なモデルを開発するための基礎を築くために、各サンプルの全側面の品質を定量化するサンプル品質 (SQ) をさらに定義します。
広範な実験により、提案された評価パラダイムの合理性が検証されています。
全体的な評価に基づいて、各データセットからより高い SQ を持つサンプルを収集することにより、新しいデータセット REVO-LION (REfining VisiOn-Language InstructiOn tuNing) を構築します。
完全なデータの半分だけを使用して、REVO-LION でトレーニングされたモデルは、すべての VLIT データセットを単純に追加するのと同等のパフォーマンスを達成できます。
REVO-LIONは、万能モデルの開発に加え、評価セットも同梱しており、今後の研究における便利な評価ベンチマークとしての役割が期待されます。

要約(オリジナル)

There is an emerging line of research on multimodal instruction tuning, and a line of benchmarks have been proposed for evaluating these models recently. Instead of evaluating the models directly, in this paper we try to evaluate the Vision-Language Instruction-Tuning (VLIT) datasets themselves and further seek the way of building a dataset for developing an all-powerful VLIT model, which we believe could also be of utility for establishing a grounded protocol for benchmarking VLIT models. For effective analysis of VLIT datasets that remains an open question, we propose a tune-cross-evaluation paradigm: tuning on one dataset and evaluating on the others in turn. For each single tune-evaluation experiment set, we define the Meta Quality (MQ) as the mean score measured by a series of caption metrics including BLEU, METEOR, and ROUGE-L to quantify the quality of a certain dataset or a sample. On this basis, to evaluate the comprehensiveness of a dataset, we develop the Dataset Quality (DQ) covering all tune-evaluation sets. To lay the foundation for building a comprehensive dataset and developing an all-powerful model for practical applications, we further define the Sample Quality (SQ) to quantify the all-sided quality of each sample. Extensive experiments validate the rationality of the proposed evaluation paradigm. Based on the holistic evaluation, we build a new dataset, REVO-LION (REfining VisiOn-Language InstructiOn tuNing), by collecting samples with higher SQ from each dataset. With only half of the full data, the model trained on REVO-LION can achieve performance comparable to simply adding all VLIT datasets up. In addition to developing an all-powerful model, REVO-LION also includes an evaluation set, which is expected to serve as a convenient evaluation benchmark for future research.

arxiv情報

著者 Ning Liao,Shaofeng Zhang,Renqiu Xia,Bo Zhang,Min Cao,Yu Qiao,Junchi Yan
発行日 2023-10-10 13:01:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク