要約
何がビデオを思い出に残すのかを理解することは、広告や教育テクノロジーに重要な応用が可能です。
この目標に向けて、私たちはビデオの記憶の基礎となる時空間的注意メカニズムを研究します。
複数の機能を融合したこれまでの研究とは異なり、ビデオ記憶力予測における最先端 (SoTA) のパフォーマンスに合わせながら、時空間的注意の分析を可能にするシンプルな CNN + Transformer アーキテクチャを採用しています。
私たちは、人間がビデオ記憶タスクを実行する小規模な視線追跡研究を通じて収集された人間の注視とモデルの注意を比較します。
(i) 定量的な顕著性メトリクスは、記憶性スコアを予測するためだけにトレーニングされたモデルが、特に記憶に残るビデオの場合、人間の視線に対して同様の空間的注意パターンを示すことを示しています。
(ii) このモデルは、人間の注意パターンを模倣して、ビデオの最初のフレームにより大きな重要性を割り当てます。
(iii) パノプティック セグメンテーションにより、発生確率と比較して、両方 (モデルと人間) が物事に対してより多くの注意を割り当て、物事への注意をあまり割り当てていないことが明らかになります。
要約(オリジナル)
Understanding what makes a video memorable has important applications in advertising or education technology. Towards this goal, we investigate spatio-temporal attention mechanisms underlying video memorability. Different from previous works that fuse multiple features, we adopt a simple CNN+Transformer architecture that enables analysis of spatio-temporal attention while matching state-of-the-art (SoTA) performance on video memorability prediction. We compare model attention against human gaze fixations collected through a small-scale eye-tracking study where humans perform the video memory task. We uncover the following insights: (i) Quantitative saliency metrics show that our model, trained only to predict a memorability score, exhibits similar spatial attention patterns to human gaze, especially for more memorable videos. (ii) The model assigns greater importance to initial frames in a video, mimicking human attention patterns. (iii) Panoptic segmentation reveals that both (model and humans) assign a greater share of attention to things and less attention to stuff as compared to their occurrence probability.
arxiv情報
著者 | Prajneya Kumar,Eshika Khandelwal,Makarand Tapaswi,Vishnu Sreekumar |
発行日 | 2024-11-05 16:25:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google