Video Instruction Tuning With Synthetic Data

要約

動画ラージ・マルチモーダルモデル(LMM)の開発は、ウェブから大量の高品質な生データを収集することの困難さによって妨げられてきた。この問題に対処するため、我々はLLaVA-Video-178Kという、動画指示追従に特化した高品質な合成データセットを作成することで、代替アプローチを提案する。このデータセットには、詳細なキャプション、自由形式の質疑応答(QA)、多肢選択式のQAなどの主要なタスクが含まれている。このデータセットと既存の視覚命令チューニングデータを組み合わせて学習することで、新しいビデオLMMであるLLaVA-Videoを導入する。我々の実験により、LLaVA-Videoは様々なビデオベンチマークにおいて高い性能を達成し、我々のデータセットの有効性を明らかにした。今後、データセット、生成パイプライン、モデルのチェックポイントを公開する予定である。

要約(オリジナル)

The development of video large multimodal models (LMMs) has been hindered by the difficulty of curating large amounts of high-quality raw data from the web. To address this, we propose an alternative approach by creating a high-quality synthetic dataset specifically for video instruction-following, namely LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning, open-ended question-answering (QA), and multiple-choice QA. By training on this dataset, in combination with existing visual instruction tuning data, we introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that LLaVA-Video achieves strong performance across various video benchmarks, highlighting the effectiveness of our dataset. We plan to release the dataset, its generation pipeline, and the model checkpoints.

arxiv情報

著者 Yuanhan Zhang,Jinming Wu,Wei Li,Bo Li,Zejun Ma,Ziwei Liu,Chunyuan Li
発行日 2024-10-04 13:29:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク