要約
画像やビデオを分析するためのラージ ビジョン言語モデル (LVLM) のアプリケーションは、急速に進化している刺激的な分野です。
近年、画像理解を微調整するための高品質の画像テキスト データセットが大幅に増加していますが、ビデオに関しては同等のデータセットがまだ不足しています。
さらに、多くの VideoLLM は単一画像 VLM の拡張であるため、長いビデオの複雑さを効率的に処理できない可能性があります。
この研究では、幅広い質問に取り組むために慎重に設計されたプロンプトを使用して、独自のモデルから作成された大規模な合成データセットを紹介します。
また、計算効率とパフォーマンスのバランスを取る動的なビジュアル トークン圧縮アーキテクチャも検討します。
私たちが提案した \model{} は、さまざまなビデオ タスクにわたって最先端の結果を達成し、印象的な一般化を示し、複数画像の理解に新しいベースラインを設定します。
特に、\model{} は、VideoMME では LLaVA-OneVision と比較して 2.7\%、MuirBench では 10.7\% の絶対的な向上を実現します。
コードは https://github.com/Hon-Wong/ByteVideoLLM で入手できます。
要約(オリジナル)
The application of Large Vision-Language Models (LVLMs) for analyzing images and videos is an exciting and rapidly evolving field. In recent years, we’ve seen significant growth in high-quality image-text datasets for fine-tuning image understanding, but there is still a lack of comparable datasets for videos. Additionally, many VideoLLMs are extensions of single-image VLMs, which may not efficiently handle the complexities of longer videos. In this study, we introduce a large-scale synthetic dataset created from proprietary models, using carefully designed prompts to tackle a wide range of questions. We also explore a dynamic visual token compression architecture that strikes a balance between computational efficiency and performance. Our proposed \model{} achieves state-of-the-art results across various video tasks and shows impressive generalization, setting new baselines in multi-image understanding. Notably, \model{} delivers an absolute improvement of 2.7\% over LLaVA-OneVision on VideoMME and 10.7\% on MuirBench. Codes are available at https://github.com/Hon-Wong/ByteVideoLLM
arxiv情報
著者 | Han Wang,Yuxiang Nie,Yongjie Ye,Deng GuanYu,Yanjie Wang,Shuai Li,Haiyang Yu,Jinghui Lu,Can Huang |
発行日 | 2024-12-12 18:20:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google