要約
視覚言語モデルのアーキテクチャや学習インフラが急速に進歩する一方で、データのキュレーションはまだ十分に研究されておらず、量と質がボトルネックになっている。既存の研究では、品質の保証が緩い余分なインターネットデータをクロールするか、API頻度や性能に制約のあるGPT-4V / Geminiなどのブラックボックス化された独自モデルから抽出する。この研究は、VLMがその生成的な性質を利用し、データ強化によってそれ自身を改善することを可能にする。自己増強ステップと専門家による増強ステップを含む、シンプルかつ効果的なVLM増強スキームを導入し、データの品質と、それによるモデルの性能を反復的に改善する。自己増強ステップでは、命令で調整されたVLMは、その事前学習キャプションデータセットを再キャプチャし、精製されたデータを活用してゼロから再学習する。人間による高価なアノテーションを行うことなく、3回のセルフオーグメンテーションを行うことで、データの品質が向上し、精度が向上します。セルフオグメンテーションが飽和状態になったら、インストラクションのファインチューニングで得た専門スキルを活用することで、キャプションの多様性を増強する。VLMのスペシャリストを、空間、接地、OCRを含むドメイン固有のエキスパートと一緒に自己増強VLMから微調整し、タスクを意識した合成データをプレトレーニングステージに融合する。VLM(GPT-4V、Gemini)と人間の判定員によって、データ品質の改善と幻覚の低減がクロスチェックされる。VILA$^2$は、自己学習と専門家による学習を組み合わせることで、従来技術よりも幅広いベンチマークで一貫して精度を向上させ、人間によるラベリングよりも300倍コスト効率の高い、再利用可能な事前学習データセットを生成する。
要約(オリジナル)
While visual language model architectures and training infrastructures advance rapidly, data curation remains under-explored where quantity and quality become a bottleneck. Existing work either crawls extra Internet data with a loose guarantee of quality or distills from black-box proprietary models, e.g., GPT-4V / Gemini that are API frequency and performance bounded. This work enables a VLM to improve itself via data enhancement, exploiting its generative nature. We introduce a simple yet effective VLM augmentation scheme that includes a self-augment step and a specialist-augment step to iteratively improve data quality and hence, model performance. In the self-augment step, the instruction-finetuned VLM recaptions its pretraining caption datasets and then retrains from scratch leveraging refined data. Without any expensive human-in-the-loop annotation, we observe improvements in data quality and downstream accuracy boosts with three self-augmentation rounds — a viable free lunch to the current VLM training recipe. When self-augmentation saturates, we augment the caption diversity by leveraging specialty skills picked up from instruction finetuning. We finetune VLM specialists from the self-augmented VLM with domain-specific experts, including spatial, grounding, and OCR, to fuse task-aware synthetic data into the pretraining stage. Data quality improvements and hallucination reductions are cross-checked by VLM (GPT-4V, Gemini) and human judges. Combining self-augmentation and specialist-augmented training, VILA$^2$ consistently improves the accuracy on a wide range of benchmarks over the prior art, producing a reusable pretraining dataset that is 300x more cost-efficient than human labeling.
arxiv情報
著者 | Yunhao Fang,Ligeng Zhu,Yao Lu,Yan Wang,Pavlo Molchanov,Jan Kautz,Jang Hyun Cho,Marco Pavone,Song Han,Hongxu Yin |
発行日 | 2024-10-31 23:23:22+00:00 |
arxivサイト | arxiv_id(pdf) |