要約
人間の感情を理解することは、より良い人間とロボットのインタラクションを提供するために、知能ロボットにとって重要な能力である。既存の研究は、トリミングされたビデオレベルの感情分類に限定されており、感情に対応する時間窓の位置を特定することができない。本論文では、Temporal Emotion Localization in videos~(TEL)と名付けた新しいタスクを紹介する。このタスクは、トリミングされていないビデオ中の人間の感情を検出し、それに対応する時間的境界を特定することを目的とし、字幕が整列している状態で行う。TELは、時間的アクションのローカライゼーションと比較して、3つのユニークな課題を提示します。1) 感情は非常に多様な時間的ダイナミクスを持つ、2) 感情の手がかりは外観と複雑なプロットの両方に埋め込まれている、3) 細かい時間的アノテーションは複雑で手間がかかる、です。そこで、我々は、粗視化・細視化2ストリームを用いた新しい拡張コンテキスト統合ネットワークを提案する。粗いストリームは、多粒度の時間的コンテキストをモデル化することにより、様々な時間的ダイナミクスを捉える。ファインストリームは、粗ストリームから得られる多階調の時間的コンテキスト間の依存関係を推論し、それらをきめ細かいビデオセグメント特徴に適応的に統合することにより、複雑なプロット理解を実現する。3つ目の課題に対して、我々はクロスモーダルコンセンサス学習パラダイムを導入し、並べられた映像と字幕の間の固有の意味的コンセンサスを利用して、弱い教師あり学習を実現する。また、TEL問題に対する今後の研究を定量的に評価するために、3,000個の時間境界を手動で注釈した新しいテストセットを提供する。また、実験により、本アプローチが感情の時間的定位に有効であることを示す。この研究のリポジトリは、https://github.com/YYJMJC/Temporal-Emotion-Localization-in-Videos にあります。
要約(オリジナル)
Understanding human emotions is a crucial ability for intelligent robots to provide better human-robot interactions. The existing works are limited to trimmed video-level emotion classification, failing to locate the temporal window corresponding to the emotion. In this paper, we introduce a new task, named Temporal Emotion Localization in videos~(TEL), which aims to detect human emotions and localize their corresponding temporal boundaries in untrimmed videos with aligned subtitles. TEL presents three unique challenges compared to temporal action localization: 1) The emotions have extremely varied temporal dynamics; 2) The emotion cues are embedded in both appearances and complex plots; 3) The fine-grained temporal annotations are complicated and labor-intensive. To address the first two challenges, we propose a novel dilated context integrated network with a coarse-fine two-stream architecture. The coarse stream captures varied temporal dynamics by modeling multi-granularity temporal contexts. The fine stream achieves complex plots understanding by reasoning the dependency between the multi-granularity temporal contexts from the coarse stream and adaptively integrates them into fine-grained video segment features. To address the third challenge, we introduce a cross-modal consensus learning paradigm, which leverages the inherent semantic consensus between the aligned video and subtitle to achieve weakly-supervised learning. We contribute a new testing set with 3,000 manually-annotated temporal boundaries so that future research on the TEL problem can be quantitatively evaluated. Extensive experiments show the effectiveness of our approach on temporal emotion localization. The repository of this work is at https://github.com/YYJMJC/Temporal-Emotion-Localization-in-Videos.
arxiv情報
著者 | Juncheng Li,Junlin Xie,Linchao Zhu,Long Qian,Siliang Tang,Wenqiao Zhang,Haochen Shi,Shengyu Zhang,Longhui Wei,Qi Tian,Yueting Zhuang |
発行日 | 2022-08-03 10:00:49+00:00 |
arxivサイト | arxiv_id(pdf) |