Time Blindness: Why Video-Language Models Can’t See What Humans Can?

要約

ビジョン言語モデル(VLM)の最近の進歩は、ビデオで時空間的関係を理解する上で印象的な進歩をもたらしました。
ただし、空間情報が不明瞭になった場合、これらのモデルは純粋に一時的なパターンをキャプチャするのに苦労しています。
$ \ textbf {spookybench} $を紹介します。これは、生物学的シグナル伝達から秘密のコミュニケーションまでの自然現象を反映して、ノイズのようなフレームの時間的なシーケンスのみで情報がエンコードされるベンチマークです。
興味深いことに、人間はこれらのシーケンスの形状、テキスト、パターンを98%以上の精度で認識することができますが、最先端のVLMは0%の精度を達成します。
このパフォーマンスのギャップは、重要な制限を強調しています。フレームレベルの空間的特徴に過度に依存していることと、時間的キューから意味を抽出できないことです。
さらに、低空間信号対雑音比(SNR)のデータセットで訓練された場合、モデルの時間的理解は、特に細粒の時間的推論を必要とするタスクで、人間の知覚よりも迅速に分解されます。
この制限を克服するには、時間的処理から空間的依存関係を分離する新しいアーキテクチャまたはトレーニングパラダイムが必要です。
私たちの体系的な分析は、この問題がモデルのスケールとアーキテクチャ全体で持続することを示しています。
Spookybenchをリリースして、時間的パターン認識の研究を触媒し、人間とマシンのビデオ理解のギャップを埋めます。
データセットとコードは、プロジェクトWebサイトhttps://timeblindness.github.io/で利用可能になりました。

要約(オリジナル)

Recent advances in vision-language models (VLMs) have made impressive strides in understanding spatio-temporal relationships in videos. However, when spatial information is obscured, these models struggle to capture purely temporal patterns. We introduce $\textbf{SpookyBench}$, a benchmark where information is encoded solely in temporal sequences of noise-like frames, mirroring natural phenomena from biological signaling to covert communication. Interestingly, while humans can recognize shapes, text, and patterns in these sequences with over 98% accuracy, state-of-the-art VLMs achieve 0% accuracy. This performance gap highlights a critical limitation: an over-reliance on frame-level spatial features and an inability to extract meaning from temporal cues. Furthermore, when trained in data sets with low spatial signal-to-noise ratios (SNR), temporal understanding of models degrades more rapidly than human perception, especially in tasks requiring fine-grained temporal reasoning. Overcoming this limitation will require novel architectures or training paradigms that decouple spatial dependencies from temporal processing. Our systematic analysis shows that this issue persists across model scales and architectures. We release SpookyBench to catalyze research in temporal pattern recognition and bridge the gap between human and machine video understanding. Dataset and code has been made available on our project website: https://timeblindness.github.io/.

arxiv情報

著者 Ujjwal Upadhyay,Mukul Ranjan,Zhiqiang Shen,Mohamed Elhoseiny
発行日 2025-05-30 17:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク