SpotFormer: Multi-Scale Spatio-Temporal Transformer for Facial Expression Spotting

要約

ビデオ内で表情が発生する期間を特定する表情スポッティングは、表情分析において重要かつ困難なタスクです。
無関係な顔の動きの問題や、微表情の微妙な動きを検出するという課題は未解決のままであり、正確な表情の検出を妨げています。
この論文では、表情スポッティングのための効率的なフレームワークを提案します。
まず、コンパクトなスライディング ウィンドウ内で入力画像シーケンスの多重解像度オプティカル フローを計算する、スライディング ウィンドウベースの多重解像度オプティカル フロー (SW-MRO) 機能を提案します。
ウィンドウの長さは、完全な微表情を認識し、一般的なマクロ表現と微小表現を区別できるように調整されています。
SW-MRO は、頭部の動きに関する重大な問題を回避しながら、微妙な動きを効果的に明らかにすることができます。
次に、正確なフレームレベルの確率推定のために SW-MRO 特徴の時空間関係を同時にエンコードするマルチスケール時空間変換器である SpotFormer を提案します。
SpotFormer では、私たちが提案した Facial Local Graph Pooling (FLGP) と畳み込み層がマルチスケールの時空間特徴抽出に適用されます。
SpotFormer のアーキテクチャをいくつかのモデル バリアントと比較することで、その有効性を示します。
3 番目に、教師あり対比学習を SpotFormer に導入して、さまざまな種類の表現間の識別性を強化します。
SAMM-LV および CAS(ME)^2 に関する広範な実験により、特に微量発現スポッティングにおいて、私たちの方法が最先端のモデルよりも優れていることが示されています。

要約(オリジナル)

Facial expression spotting, identifying periods where facial expressions occur in a video, is a significant yet challenging task in facial expression analysis. The issues of irrelevant facial movements and the challenge of detecting subtle motions in micro-expressions remain unresolved, hindering accurate expression spotting. In this paper, we propose an efficient framework for facial expression spotting. First, we propose a Sliding Window-based Multi-Resolution Optical flow (SW-MRO) feature, which calculates multi-resolution optical flow of the input image sequence within compact sliding windows. The window length is tailored to perceive complete micro-expressions and distinguish between general macro- and micro-expressions. SW-MRO can effectively reveal subtle motions while avoiding severe head movement problems. Second, we propose SpotFormer, a multi-scale spatio-temporal Transformer that simultaneously encodes spatio-temporal relationships of the SW-MRO features for accurate frame-level probability estimation. In SpotFormer, our proposed Facial Local Graph Pooling (FLGP) and convolutional layers are applied for multi-scale spatio-temporal feature extraction. We show the validity of the architecture of SpotFormer by comparing it with several model variants. Third, we introduce supervised contrastive learning into SpotFormer to enhance the discriminability between different types of expressions. Extensive experiments on SAMM-LV and CAS(ME)^2 show that our method outperforms state-of-the-art models, particularly in micro-expression spotting.

arxiv情報

著者 Yicheng Deng,Hideaki Hayashi,Hajime Nagahara
発行日 2024-07-30 13:02:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク