Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding

要約

Tarsier2 は、詳細かつ正確なビデオ説明を生成するために設計された最先端のラージビジョン言語モデル (LVLM) であり、優れた一般的なビデオ理解機能も示します。
Tarsier2 は 3 つの主要なアップグレードを通じて大幅な進歩を遂げています。(1) 事前トレーニングデータを 1,100 万のビデオとテキストのペアから 4,000 万のペアに拡張し、量と多様性の両方を強化します。
（２）教師あり微調整中に、きめの細かい時間的アライメントを実行する。
(3) モデルベースのサンプリングを使用して嗜好データを自動的に構築し、最適化のために DPO トレーニングを適用します。
広範な実験により、Tarsier2-7B は、詳細なビデオ記述タスクにおいて、GPT-4o や Gemini 1.5 Pro などの主要な独自モデルよりも常に優れていることが示されています。
DREAM-1K ベンチマークでは、Tarsier2-7B は F1 を GPT-4o より 2.8\%、Gemini-1.5-Pro より 5.8\% 向上させます。
人間による並列評価では、Tarsier2-7B は GPT-4o に対して +8.6\%、Gemini-1.5-Pro に対して +24.9\% のパフォーマンス上の利点を示しました。
Tarsier2-7B はまた、ビデオ質問応答、ビデオグラウンディング、幻覚テスト、身体的質問応答などのタスクにわたる 15 の公開ベンチマークにわたって新しい最先端の結果をもたらし、堅牢な汎用ビジョン言語としての多用途性を実証しています。
モデル。

要約(オリジナル)

We introduce Tarsier2, a state-of-the-art large vision-language model (LVLM) designed for generating detailed and accurate video descriptions, while also exhibiting superior general video understanding capabilities. Tarsier2 achieves significant advancements through three key upgrades: (1) Scaling pre-training data from 11M to 40M video-text pairs, enriching both volume and diversity; (2) Performing fine-grained temporal alignment during supervised fine-tuning; (3) Using model-based sampling to automatically construct preference data and applying DPO training for optimization. Extensive experiments show that Tarsier2-7B consistently outperforms leading proprietary models, including GPT-4o and Gemini 1.5 Pro, in detailed video description tasks. On the DREAM-1K benchmark, Tarsier2-7B improves F1 by 2.8\% over GPT-4o and 5.8\% over Gemini-1.5-Pro. In human side-by-side evaluations, Tarsier2-7B shows a +8.6\% performance advantage over GPT-4o and +24.9\% over Gemini-1.5-Pro. Tarsier2-7B also sets new state-of-the-art results across 15 public benchmarks, spanning tasks such as video question-answering, video grounding, hallucination test, and embodied question-answering, demonstrating its versatility as a robust generalist vision-language model.

arxiv情報

著者	Liping Yuan,Jiawei Wang,Haomiao Sun,Yuchen Zhang,Yuan Lin
発行日	2025-01-17 11:06:34+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー