要約
動画ラージ・マルチモーダルモデル(LMM)の開発は、ウェブから大量の高品質な生データを収集することの困難さによって妨げられてきた。この問題に対処するため、我々はLLaVA-Video-178Kという、動画指示追従に特化した高品質な合成データセットを作成することで、代替アプローチを提案する。このデータセットには、詳細なキャプション、自由形式の質疑応答(QA)、多肢選択式のQAなどの主要なタスクが含まれている。このデータセットと既存の視覚命令チューニングデータを組み合わせて学習することで、新しいビデオLMMであるLLaVA-Videoを導入する。我々の実験により、LLaVA-Videoは様々なビデオベンチマークにおいて高い性能を達成し、我々のデータセットの有効性を明らかにした。今後、データセット、生成パイプライン、モデルのチェックポイントを公開する予定である。
要約(オリジナル)
The development of video large multimodal models (LMMs) has been hindered by the difficulty of curating large amounts of high-quality raw data from the web. To address this, we propose an alternative approach by creating a high-quality synthetic dataset specifically for video instruction-following, namely LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning, open-ended question-answering (QA), and multiple-choice QA. By training on this dataset, in combination with existing visual instruction tuning data, we introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that LLaVA-Video achieves strong performance across various video benchmarks, highlighting the effectiveness of our dataset. We plan to release the dataset, its generation pipeline, and the model checkpoints.
arxiv情報
著者 | Yuanhan Zhang,Jinming Wu,Wei Li,Bo Li,Zejun Ma,Ziwei Liu,Chunyuan Li |
発行日 | 2024-10-04 13:29:09+00:00 |
arxivサイト | arxiv_id(pdf) |