GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval

要約

認知科学は、人間が映像を知覚する際、支配的な被写体の状態変化で区切られた事象を知覚することを明らかにした。状態変化は新たなイベントのトリガーとなり、知覚される大量の冗長な情報の中で最も有用な情報の一つである。しかし、これまでの研究では、セグメント全体の理解に焦点を当て、内部の細かな状態変化を評価することはなかった。本論文では、Kinetic-GEB+と呼ばれる新しいデータセットを紹介する。このデータセットは、12Kビデオにおける一般的なイベントの状態変化を説明するキャプションに関連付けられた170k以上の境界線から構成される。この新しいデータセットを用いて、我々は、よりきめ細かく、堅牢で、人間に近い状態変化によるビデオの理解の開発を支援する3つのタスクを提案する。また、視覚的な差分に対する新しいTPD (Temporal-based Pairwise Difference) モデリング手法を設計し、大幅な性能改善を達成した。さらに、現在の手法には、異なる粒度の利用、視覚的差分の表現、状態変化の正確な位置特定など、手ごわい課題が残されていることが示された。さらに分析を進めると、このデータセットが、状態変化を理解するためのより強力な手法の開発を促進し、動画像レベルの理解力を向上させることができることが示されました。データセットは、https://github.com/showlab/GEB-Plus で公開されています。

要約(オリジナル)

Cognitive science has shown that humans perceive videos in terms of events separated by the state changes of dominant subjects. State changes trigger new events and are one of the most useful among the large amount of redundant information perceived. However, previous research focuses on the overall understanding of segments without evaluating the fine-grained status changes inside. In this paper, we introduce a new dataset called Kinetic-GEB+. The dataset consists of over 170k boundaries associated with captions describing status changes in the generic events in 12K videos. Upon this new dataset, we propose three tasks supporting the development of a more fine-grained, robust, and human-like understanding of videos through status changes. We evaluate many representative baselines in our dataset, where we also design a new TPD (Temporal-based Pairwise Difference) Modeling method for visual difference and achieve significant performance improvements. Besides, the results show there are still formidable challenges for current methods in the utilization of different granularities, representation of visual difference, and the accurate localization of status changes. Further analysis shows that our dataset can drive developing more powerful methods to understand status changes and thus improve video level comprehension. The dataset is available at https://github.com/showlab/GEB-Plus

arxiv情報

著者 Yuxuan Wang,Difei Gao,Licheng Yu,Stan Weixian Lei,Matt Feiszli,Mike Zheng Shou
発行日 2022-08-10 15:33:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク