Lifting Scheme-Based Implicit Disentanglement of Emotion-Related Facial Dynamics in the Wild

要約

実際の動的表情認識 (DFER) は、感情に関連した表情を認識する際に大きな課題に直面します。感情に関係のない表情やグローバルなコンテキストによって時間的および空間的に薄められることがよくあります。
従来の DFER 手法のほとんどは、関連性の低い特徴が組み込まれている可能性がある密結合した時空間表現をモデル化しており、情報の冗長性や感情に無関係なコンテキスト バイアスが発生する可能性があります。
いくつかの DFER 手法は動的情報の重要性を強調していますが、過度に強力な事前知識を使用して動的特徴を抽出するために明示的な方法を利用しています。
この論文では、新しい Implicit Facial Dynamics Disentanglement フレームワーク (IFDD) を提案します。
ウェーブレット リフティング スキームを完全に学習可能なフレームワークに拡張することにより、IFDD は暗黙的な方法で、つまりエクスプロイト操作や外部ガイダンスなしで、感情に関連する動的情報を感情に無関係なグローバル コンテキストから解きほぐします。
IFDD のもつれ解除プロセスには 2 つの段階が含まれます。つまり、大まかなもつれ解除推定を行うフレーム間静的-動的分割モジュール (ISSM) と、さらなる改良を行うためのリフティングベースの集約-もつれ解除モジュール (LADM) です。
具体的には、ISSM はフレーム間の相関関係を調査し、コンテンツを認識した分割インデックスをオンザフライで生成します。
これらのインデックスを事前に利用して、フレームの特徴を 2 つのグループに分割します。1 つはより大きなグローバルな類似性を持ち、もう 1 つはよりユニークな動的特徴を持ちます。
その後、LADM はまずこれら 2 つの特徴グループを集約してアップデーターによってきめの細かいグローバル コンテキスト特徴を取得し、次にプレディクターによってグローバル コンテキストから感情関連の顔の動的特徴を解きほぐします。
実地データセットに対する広範な実験により、IFDD が以前の教師あり DFER 手法よりも高い認識精度と同等の効率で優れた性能を発揮することが実証されました。

要約(オリジナル)

In-the-wild Dynamic facial expression recognition (DFER) encounters a significant challenge in recognizing emotion-related expressions, which are often temporally and spatially diluted by emotion-irrelevant expressions and global context respectively. Most of the prior DFER methods model tightly coupled spatiotemporal representations which may incorporate weakly relevant features, leading to information redundancy and emotion-irrelevant context bias. Several DFER methods have highlighted the significance of dynamic information, but utilize explicit manners to extract dynamic features with overly strong prior knowledge. In this paper, we propose a novel Implicit Facial Dynamics Disentanglement framework (IFDD). Through expanding wavelet lifting scheme to fully learnable framework, IFDD disentangles emotion-related dynamic information from emotion-irrelevant global context in an implicit manner, i.e., without exploit operations and external guidance. The disentanglement process of IFDD contains two stages, i.e., Inter-frame Static-dynamic Splitting Module (ISSM) for rough disentanglement estimation and Lifting-based Aggregation-Disentanglement Module (LADM) for further refinement. Specifically, ISSM explores inter-frame correlation to generate content-aware splitting indexes on-the-fly. We preliminarily utilize these indexes to split frame features into two groups, one with greater global similarity, and the other with more unique dynamic features. Subsequently, LADM first aggregates these two groups of features to obtain fine-grained global context features by an updater, and then disentangles emotion-related facial dynamic features from the global context by a predictor. Extensive experiments on in-the-wild datasets have demonstrated that IFDD outperforms prior supervised DFER methods with higher recognition accuracy and comparable efficiency.

arxiv情報

著者 Xingjian Wang,Li Chai
発行日 2024-12-17 18:45:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク