要約
現代のビデオ理解モデルにおいて、時間のモデリングと理解は依然として課題である。言語が強力な汎化のための重要な推進力として浮上しているため、基礎となるビデオ言語モデルが時間の感覚を持つことが不可欠である。本論文では、時間理解の特定の側面、すなわち、前後関係によって引き出される時間順序の一貫性について考察する。その結果、既存の6つのビデオ言語モデルが、このような単純な時間関係でさえも理解するのに苦労していることを明らかにした。次に、これらの基礎的なモデルに、ゼロから再トレーニングすることなく、時間認識を装備させることが可能かどうかを問う。この問題に対して、我々はVideoCLIPというモデルの上に、少量のビデオテキストデータに対するポストプレトレーニングに基づく時間適応レシピを提案する。我々は、適応されたモデルのゼロショット評価を、様々な程度の時間認識を必要とする3つの下流タスクの6つのデータセットで行う。特に、より高い時間認識を必要とするタスクにおいて、有望な性能向上が観察される。本研究は、既存のビデオ言語モデルに時間感覚を持たせるための第一歩であり、データや計算を必要としない。
要約(オリジナル)
Modeling and understanding time remains a challenge in contemporary video understanding models. With language emerging as a key driver towards powerful generalization, it is imperative for foundational video-language models to have a sense of time. In this paper, we consider a specific aspect of temporal understanding: consistency of time order as elicited by before/after relations. We establish that six existing video-language models struggle to understand even such simple temporal relations. We then question whether it is feasible to equip these foundational models with temporal awareness without re-training them from scratch. Towards this, we propose a temporal adaptation recipe on top of one such model, VideoCLIP, based on post-pretraining on a small amount of video-text data. We conduct a zero-shot evaluation of the adapted models on six datasets for three downstream tasks which require a varying degree of time awareness. We observe encouraging performance gains especially when the task needs higher time awareness. Our work serves as a first step towards probing and instilling a sense of time in existing video-language models without the need for data and compute-intense training from scratch.
arxiv情報
著者 | Piyush Bagad,Makarand Tapaswi,Cees G. M. Snoek |
発行日 | 2023-01-05 14:14:36+00:00 |
arxivサイト | arxiv_id(pdf) |