SF2T: Self-supervised Fragment Finetuning of Video-LLMs for Fine-Grained Understanding

要約

ビデオベースの大規模な言語モデル(ビデオ-LLM)は、マルチモーダルLLMの進歩によって推進されており、近年、実質的な進歩を目撃しています。
これらのモデルは、ビデオの全体的な説明を提供する習熟度を実証していますが、特に視覚的なダイナミクスやビデオの詳細に関する問い合わせなどの側面において、細かい理解に苦労しています。
これらの欠点に取り組むために、自己監視されたフラグメントタスクに微調整されたビデオllmsが、細かい粒度のあるビデオ理解能力を大幅に改善することがわかります。
したがって、2つの重要な貢献を提案します。(1)斬新な楽な微調整方法である自己監視フラグメント微調整(sf $^2 $ t)は、ビデオllmのより微調整された理解能力を解き放ちながら、トレーニングのためにビデオの豊富な固有の特性を採用しています。
さらに、研究者は労働集約的な注釈から解放され、自然言語の限界を賢く回避します。
(2)シーンレベルとフラグメントレベルの両方でビデオllmsのパフォーマンスを厳密に評価し、能力の包括的な評価を提供するための、新しいベンチマークデータセット、すなわちfinevidbench。
複数のモデルを評価し、Sf $^2 $ tの有効性を検証しました。
実験結果は、私たちのアプローチが時空間的な詳細をキャプチャして解釈する能力を向上させることを明らかにしています。

要約(オリジナル)

Video-based Large Language Models (Video-LLMs) have witnessed substantial advancements in recent years, propelled by the advancement in multi-modal LLMs. Although these models have demonstrated proficiency in providing the overall description of videos, they struggle with fine-grained understanding, particularly in aspects such as visual dynamics and video details inquiries. To tackle these shortcomings, we find that fine-tuning Video-LLMs on self-supervised fragment tasks, greatly improve their fine-grained video understanding abilities. Hence we propose two key contributions:(1) Self-Supervised Fragment Fine-Tuning (SF$^2$T), a novel effortless fine-tuning method, employs the rich inherent characteristics of videos for training, while unlocking more fine-grained understanding ability of Video-LLMs. Moreover, it relieves researchers from labor-intensive annotations and smartly circumvents the limitations of natural language, which often fails to capture the complex spatiotemporal variations in videos; (2) A novel benchmark dataset, namely FineVidBench, for rigorously assessing Video-LLMs’ performance at both the scene and fragment levels, offering a comprehensive evaluation of their capabilities. We assessed multiple models and validated the effectiveness of SF$^2$T on them. Experimental results reveal that our approach improves their ability to capture and interpret spatiotemporal details.

arxiv情報

著者 Yangliu Hu,Zikai Song,Na Feng,Yawei Luo,Junqing Yu,Yi-Ping Phoebe Chen,Wei Yang
発行日 2025-04-10 13:40:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.AI, cs.CV, I.4.8 パーマリンク