要約
近年、ビデオデータの生産がかつてないほど急増しているため、下流のタスクのためにビデオから意味のあるフレームを抽出する効率的なツールが必要とされている。長期的な時間的推論は、フレーム検索システムにとって重要な課題である。VideoLLaMAやViCLIPのような最先端の基礎モデルは、短期的な意味理解には長けているが、フレームをまたいだ長期的な推論では驚くほど失敗する。この失敗の主な理由は、フレームごとの知覚と時間的推論を単一のディープネットワークに絡めていることにある。したがって、効率的なシーン識別には、意味理解と時間的推論を切り離し、協調設計することが不可欠である。我々は、個々のフレームの意味理解のために視覚言語モデルを活用するが、本質的に記憶を捉える状態機械と時間論理(TL)式を用いて、事象の長期的な発展について効果的に推論するシステムを提案する。我々のTLに基づく推論は、WaymoやNuScenesといった最先端の自動運転データセットの推論にGPT4を用いたベンチマークと比較して、複雑なイベント識別のF1スコアを9-15%向上させる。
要約(オリジナル)
The unprecedented surge in video data production in recent years necessitates efficient tools to extract meaningful frames from videos for downstream tasks. Long-term temporal reasoning is a key desideratum for frame retrieval systems. While state-of-the-art foundation models, like VideoLLaMA and ViCLIP, are proficient in short-term semantic understanding, they surprisingly fail at long-term reasoning across frames. A key reason for this failure is that they intertwine per-frame perception and temporal reasoning into a single deep network. Hence, decoupling but co-designing semantic understanding and temporal reasoning is essential for efficient scene identification. We propose a system that leverages vision-language models for semantic understanding of individual frames but effectively reasons about the long-term evolution of events using state machines and temporal logic (TL) formulae that inherently capture memory. Our TL-based reasoning improves the F1 score of complex event identification by 9-15% compared to benchmarks that use GPT4 for reasoning on state-of-the-art self-driving datasets such as Waymo and NuScenes.
arxiv情報
著者 | Minkyu Choi,Harsh Goel,Mohammad Omama,Yunhao Yang,Sahil Shah,Sandeep Chinchali |
発行日 | 2024-12-03 18:58:22+00:00 |
arxivサイト | arxiv_id(pdf) |