NR-DFERNet: Noise-Robust Network for Dynamic Facial Expression Recognition

要約

野生の動的表情認識(DFER)は、ビデオシーケンスにノイズの多いフレームが多数あるため、非常に困難な作業です。
以前の作品は、より識別力のある特徴を抽出することに焦点を当てていますが、キーフレームとノイズの多いフレームを区別することは無視しています。
この問題に取り組むために、我々は、ノイズに強い動的表情認識ネットワーク(NR-DFERNet)を提案します。これは、DFERタスクでのノイズの多いフレームの干渉を効果的に減らすことができます。
具体的には、空間段階で、より識別力のある空間特徴を学習するために、静的特徴に動的特徴を導入する動的静的融合モジュール(DSF)を考案します。
ターゲットの無関係なフレームの影響を抑制するために、一時的な段階でトランスフォーマーに新しい動的クラストークン(DCT)を導入します。
さらに、決定段階でスニペットベースのフィルター(SF)を設計して、非ニュートラルシーケンス分類に対するニュートラルフレームが多すぎる影響を減らします。
広範な実験結果は、NR-DFERNetがDFEWベンチマークとAFEWベンチマークの両方で最先端の方法よりも優れていることを示しています。

要約(オリジナル)

Dynamic facial expression recognition (DFER) in the wild is an extremely challenging task, due to a large number of noisy frames in the video sequences. Previous works focus on extracting more discriminative features, but ignore distinguishing the key frames from the noisy frames. To tackle this problem, we propose a noise-robust dynamic facial expression recognition network (NR-DFERNet), which can effectively reduce the interference of noisy frames on the DFER task. Specifically, at the spatial stage, we devise a dynamic-static fusion module (DSF) that introduces dynamic features to static features for learning more discriminative spatial features. To suppress the impact of target irrelevant frames, we introduce a novel dynamic class token (DCT) for the transformer at the temporal stage. Moreover, we design a snippet-based filter (SF) at the decision stage to reduce the effect of too many neutral frames on non-neutral sequence classification. Extensive experimental results demonstrate that our NR-DFERNet outperforms the state-of-the-art methods on both the DFEW and AFEW benchmarks.

arxiv情報

著者 Hanting Li,Mingzhe Sui,Zhaoqing Zhu,Feng zhao
発行日 2022-06-10 10:17:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク