要約
長いコンテキストマルチモーダル学習のために、フロンティアビジョンモデル(VLMS)のファミリーであるイーグル2.5を紹介します。
私たちの仕事は、長いビデオ理解と高解像度の画像理解の課題に対処し、両方のタスクのジェネラリストの枠組みを紹介しています。
提案されたトレーニングフレームワークには、自動劣化サンプリングと画像エリアの保存、文脈的な完全性と視覚的な詳細を保持する2つの手法が組み込まれています。
このフレームワークには、長いコンテキストデータトレーニングのためのパイプラインの多数の効率的最適化も含まれています。
最後に、ストーリーレベルとクリップレベルの注釈の両方を統合する新しいデータセットであるEagle-Video-10Kを提案し、長いビデオの理解を促進します。
Eagle 2.5は、長いコンテキストマルチモーダルベンチマークの大幅な改善を示しており、既存のVLMの制限に対する堅牢なソリューションを提供します。
特に、当社のBest Model Eagle 2.5-8Bは、512の入力フレームでVideo-MMEで72.4%を達成し、GPT-4Oなどのトップ層の商用モデルの結果とQWEN2.5-VL-72BやInternVL2.5-78Bなどの大規模なオープンソースモデルの結果と一致します。
要約(オリジナル)
We introduce Eagle 2.5, a family of frontier vision-language models (VLMs) for long-context multimodal learning. Our work addresses the challenges in long video comprehension and high-resolution image understanding, introducing a generalist framework for both tasks. The proposed training framework incorporates Automatic Degrade Sampling and Image Area Preservation, two techniques that preserve contextual integrity and visual details. The framework also includes numerous efficiency optimizations in the pipeline for long-context data training. Finally, we propose Eagle-Video-110K, a novel dataset that integrates both story-level and clip-level annotations, facilitating long-video understanding. Eagle 2.5 demonstrates substantial improvements on long-context multimodal benchmarks, providing a robust solution to the limitations of existing VLMs. Notably, our best model Eagle 2.5-8B achieves 72.4% on Video-MME with 512 input frames, matching the results of top-tier commercial model such as GPT-4o and large-scale open-source models like Qwen2.5-VL-72B and InternVL2.5-78B.
arxiv情報
著者 | Guo Chen,Zhiqi Li,Shihao Wang,Jindong Jiang,Yicheng Liu,Lidong Lu,De-An Huang,Wonmin Byeon,Matthieu Le,Tuomas Rintamaki,Tyler Poon,Max Ehrlich,Tuomas Rintamaki,Tyler Poon,Tong Lu,Limin Wang,Bryan Catanzaro,Jan Kautz,Andrew Tao,Zhiding Yu,Guilin Liu |
発行日 | 2025-04-21 17:57:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google