ICONS: Influence Consensus for Vision-Language Data Selection

要約

視覚的命令の調整には通常、大量の視覚言語トレーニング データが必要です。
このデータには多くの場合、パフォーマンスが比例して向上することなく、計算コストが増加する冗長な情報が含まれています。
この研究では、効率的なマルチタスク トレーニングのためのコンパクトなトレーニング データセットを選択する視覚言語データ選択のための勾配駆動型の Influence CONsensus アプローチである ICONS を紹介します。
私たちのアプローチの重要な要素は、クロスタスク影響コンセンサスです。これは、タスク固有の影響マトリックスにわたる多数決を使用して、複数のタスクにわたって一貫して価値のあるサンプルを特定し、全体的なパフォーマンスを最適化するデータに効果的に優先順位を付けることを可能にします。
実験では、選択したデータ (LLaVA-665K の 20%) でトレーニングされたモデルが、完全なデータセットを使用して得られた相対パフォーマンスの 98.6% を達成することが示されています。
さらに、このサブセット LLaVA-ICONS-133K をリリースします。これは、LLaVA-665K 視覚指示チューニング データのコンパクトでありながら非常に有益なサブセットであり、効率的な視覚言語モデル開発のために影響力の高いトレーニング データを保存します。

要約(オリジナル)

Visual Instruction Tuning typically requires a large amount of vision-language training data. This data often containing redundant information that increases computational costs without proportional performance gains. In this work, we introduce ICONS, a gradient-driven Influence CONsensus approach for vision-language data Selection that selects a compact training dataset for efficient multi-task training. The key element of our approach is cross-task influence consensus, which uses majority voting across task-specific influence matrices to identify samples that are consistently valuable across multiple tasks, allowing us to effectively prioritize data that optimizes for overall performance. Experiments show that models trained on our selected data (20% of LLaVA-665K) achieve 98.6% of the relative performance obtained using the full dataset. Additionally, we release this subset, LLaVA-ICONS-133K, a compact yet highly informative subset of LLaVA-665K visual instruction tuning data, preserving high impact training data for efficient vision-language model development.

arxiv情報

著者 Xindi Wu,Mengzhou Xia,Rulin Shao,Zhiwei Deng,Pang Wei Koh,Olga Russakovsky
発行日 2025-01-06 18:17:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク