要約
近年、ビジョン理解ドメインにおけるマルチモーダル大手言語モデル(MLLM)の成功が目撃されています。
これらのモデルの成功は、主に支配的なスケーリング法則に起因する可能性があります。これは、より大きなパラメーターサイズとデータボリュームがパフォーマンスの向上に寄与すると述べています。
特に、データスケーリングは、主にLLMの自己構築を中心とする自動データパイプラインによって駆動されています。
パラダイムはかなり長い間当たり前と考えられてきましたが、これらのデータを使用したスケーリングの有効性の研究は長い間無視されてきました。
これに関連して、この作業は合成データを使用してスケーリングを再検討し、データ中心の観点からVideoLLMの開発に焦点を当てています。
私たちの主な研究アプローチは、ビデオデータを使用した事前訓練を受けた画像LLMを微調整し、データスケーリングを介した学習効率を調査することです。
予備実験の結果は、単にビデオデータサンプルをスケーリングするだけで、学習効率が低いことが明らかになりました。
この問題を目指して、純粋なテキスト命令データのビデオのようなサンプルを統合するSparrowと呼ばれるデータ増強方法を提案します。
これらの合成サンプルをビデオデータと混合すると、より効率的なトレーニングスキームが可能になります。
包括的な実験を通じて、提案された方法が、より多くのサンプルで訓練されたベースラインに匹敵する、またはさらに優れたパフォーマンスを達成することを実証します。
一方、これらの合成サンプルを組み込むと、長いビデオデータでトレーニングせずに長いビデオ理解のパフォーマンスが向上する可能性があることがわかります。
コードとデータの例は、https://github.com/vita-mllm/sparrowで入手できます。
要約(オリジナル)
Recent years have witnessed the success of Multimodal Large Language Models (MLLMs) in the vision understanding domain. The success of these models can largely be attributed to the dominant scaling law, which states that larger parameter sizes and data volumes contribute to better performance. Notably, data scaling has mainly been powered by automatic data pipelines, which center around the self-instruction of LLMs. The paradigm has been taken for granted for quite some time, but the study of the effectiveness of scaling with these data has been neglected for a long time. In this context, this work revisits scaling with synthetic data and focuses on developing video-LLMs from a data-centric perspective. Our main study approach is fine-tuning pre-trained image-LLMs with video data and investigating learning efficiency through data scaling. Results from our preliminary experiments reveal a low learning efficiency phenomenon when simply scaling up video data samples, which, through our probing, can be ascribed to a lack of instruction diversity. Aiming at this issue, we propose a data augmentation method called Sparrow, which synthesizes video-like samples from pure text instruction data. Mixing these synthetic samples with the video data enables a more efficient training scheme. Through comprehensive experiments, we demonstrate that our proposed method achieves performance comparable to or even superior to baselines trained with many more samples. Meanwhile, we find that incorporating these synthetic samples can boost the performance of long video understanding without training with long video data. The code and data examples are available at https://github.com/VITA-MLLM/Sparrow.
arxiv情報
著者 | Shukang Yin,Chaoyou Fu,Sirui Zhao,Yunhang Shen,Chunjiang Ge,Yan Yang,Zuwei Long,Yuhan Dai,Yongdong Luo,Haoyu Cao,Tong Xu,Xing Sun,Caifeng Shan,Ran He,Enhong Chen |
発行日 | 2025-03-10 15:44:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google