T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs

要約

画像領域におけるマルチモーダル大規模言語モデル (MLLM) の成功は、研究コミュニティから幅広い注目を集めています。
研究者たちは最近、これまでの成功体験をもとに、その成功をビデオ理解の領域にも拡張することを模索しています。
ゼロからトレーニングする以外に、効率的な方法は、事前トレーニング済みの画像 LLM を利用することで、ゼロショット推論とビデオ データによるさらなる微調整という 2 つの主流のアプローチにつながります。
この研究では、これらのアプローチの研究により、効果的なデータ拡張方法が得られます。
まず、ゼロショット推論方法をより深く検査し、2 つの制限、つまり一般化の制限と時間的理解機能の欠如を特定します。
したがって、微調整アプローチをさらに調査し、すべてのビデオ データ サンプルを単純に使用する場合、学習効率が低いことがわかりました。これは、命令の多様性の欠如に起因すると考えられます。
この問題を目指して、私たちはトレーニング コーパスの指導の多様性を高めるためにビデオのようなサンプルを合成する T2Vid と呼ばれる手法を開発しました。
これらのデータを統合すると、シンプルで効率的なトレーニング スキームが可能になり、わずか 15% のサンプル サイズでトレーニングするだけで、完全なビデオ データセットを使用した場合と同等またはそれ以上のパフォーマンスを達成できます。
一方、提案されたスキームは、長いビデオサンプルを使用したトレーニングなしで、長いビデオの理解のパフォーマンスを向上させることができることがわかりました。
私たちの研究が、ビデオの理解と高品質のデータのキュレーションに MLLM を使用することについてさらに考えるきっかけになることを願っています。
コードは https://github.com/xjtupanda/T2Vid で公開されています。

要約(オリジナル)

The success of Multimodal Large Language Models (MLLMs) in the image domain has garnered wide attention from the research community. Drawing on previous successful experiences, researchers have recently explored extending the success to the video understanding realms. Apart from training from scratch, an efficient way is to utilize the pre-trained image-LLMs, leading to two mainstream approaches, i.e. zero-shot inference and further fine-tuning with video data. In this work, our study of these approaches harvests an effective data augmentation method. We first make a deeper inspection of the zero-shot inference way and identify two limitations, i.e. limited generalization and lack of temporal understanding capabilities. Thus, we further investigate the fine-tuning approach and find a low learning efficiency when simply using all the video data samples, which can be attributed to a lack of instruction diversity. Aiming at this issue, we develop a method called T2Vid to synthesize video-like samples to enrich the instruction diversity in the training corpus. Integrating these data enables a simple and efficient training scheme, which achieves performance comparable to or even superior to using full video datasets by training with just 15% the sample size. Meanwhile, we find that the proposed scheme can boost the performance of long video understanding without training with long video samples. We hope our study will spark more thinking about using MLLMs for video understanding and curation of high-quality data. The code is released at https://github.com/xjtupanda/T2Vid.

arxiv情報

著者 Shukang Yin,Chaoyou Fu,Sirui Zhao,Yunhang Shen,Chunjiang Ge,Yan Yang,Zuwei Long,Yuhan Dai,Tong Xu,Xing Sun,Ran He,Caifeng Shan,Enhong Chen
発行日 2024-11-29 18:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク