要約
一時的な認識、質問が提起されたときにタイムスタンプに基づいて動的に推論する能力は、オフラインビデオLLMとオンラインビデオLLMの重要な区別です。
静的、事後分析の完全なビデオに依存するオフラインモデルとは異なり、オンラインモデルは、質問が提起されたタイムスタンプに基づいて、回答を段階的かつ動的に適応させます。
その重要性にもかかわらず、一時的な認識は既存のベンチマークで適切に評価されていません。
このギャップを埋めるために、OVOベンチ(オンラインビデオベンチマーク)を紹介します。これは、高度なオンラインビデオ理解機能ベンチマークのためのタイムスタンプの重要性を強調する新しいビデオベンチマークです。
OVOベンチは、3つの異なるシナリオの下で特定のタイムスタンプで発生するイベントを推論および応答するビデオLLMの能力を評価します。(1)後方追跡:過去のイベントに戻って質問に答える。
(2)リアルタイムの理解:現在のタイムスタンプで展開するイベントを理解し、対応します。
(3)フォワードアクティブな応答:質問に正確に答えるのに十分な将来の情報が利用可能になるまで応答を遅らせます。
OVOベンチは、644個のユニークなビデオと、正確なタイムスタンプを使用したほぼ人間がキュレーションされた2,800個の細かいメタアノットを備えた12のタスクで構成されています。
自動化された世代パイプラインと人間のキュレーションを組み合わせます。
これらの高品質のサンプルを使用して、ビデオLLMを体系的にビデオタイムラインに照会するための評価パイプラインをさらに開発しました。
9つのVideo-LLMの評価により、従来のベンチマークの進歩にもかかわらず、現在のモデルはオンラインビデオ理解に苦労し、人間のエージェントと比較して大きなギャップを示していることが明らかになりました。
Ovo-BenchがビデオLLMSの進歩を促進し、オンラインビデオ推論の将来の研究を促すことを願っています。
当社のベンチマークとコードは、https://github.com/joeleelyf/ovo-benchでアクセスできます。
要約(オリジナル)
Temporal Awareness, the ability to reason dynamically based on the timestamp when a question is raised, is the key distinction between offline and online video LLMs. Unlike offline models, which rely on complete videos for static, post hoc analysis, online models process video streams incrementally and dynamically adapt their responses based on the timestamp at which the question is posed. Despite its significance, temporal awareness has not been adequately evaluated in existing benchmarks. To fill this gap, we present OVO-Bench (Online-VideO-Benchmark), a novel video benchmark that emphasizes the importance of timestamps for advanced online video understanding capability benchmarking. OVO-Bench evaluates the ability of video LLMs to reason and respond to events occurring at specific timestamps under three distinct scenarios: (1) Backward tracing: trace back to past events to answer the question. (2) Real-time understanding: understand and respond to events as they unfold at the current timestamp. (3) Forward active responding: delay the response until sufficient future information becomes available to answer the question accurately. OVO-Bench comprises 12 tasks, featuring 644 unique videos and approximately human-curated 2,800 fine-grained meta-annotations with precise timestamps. We combine automated generation pipelines with human curation. With these high-quality samples, we further developed an evaluation pipeline to systematically query video LLMs along the video timeline. Evaluations of nine Video-LLMs reveal that, despite advancements on traditional benchmarks, current models struggle with online video understanding, showing a significant gap compared to human agents. We hope OVO-Bench will drive progress in video LLMs and inspire future research in online video reasoning. Our benchmark and code can be accessed at https://github.com/JoeLeelyf/OVO-Bench.
arxiv情報
著者 | Yifei Li,Junbo Niu,Ziyang Miao,Chunjiang Ge,Yuanhang Zhou,Qihao He,Xiaoyi Dong,Haodong Duan,Shuangrui Ding,Rui Qian,Pan Zhang,Yuhang Zang,Yuhang Cao,Conghui He,Jiaqi Wang |
発行日 | 2025-03-27 17:40:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google