要約
実際の動的表情認識 (DFER) は、感情に関連した表情を認識する際に大きな課題に直面します。感情に関係のない表情やグローバルなコンテキストによって時間的および空間的に弱められることがよくあります。
従来の DFER 法のほとんどは、感情に無関係なコンテキスト バイアスを伴う関連性の低い特徴を組み込む可能性がある結合時空間表現を直接利用しています。
いくつかの DFER メソッドは、DFER の動的情報を強調表示しますが、無関係な動きに対して脆弱になる可能性がある明示的なガイダンスに従っています。
この論文では、新しい Implicit Facial Dynamics Disentanglement フレームワーク (IFDD) を提案します。
ウェーブレット リフティング スキームを完全に学習可能なフレームワークに拡張することにより、IFDD は暗黙的な方法で、つまりエクスプロイト操作や外部ガイダンスなしで、感情に関連する動的情報を感情に無関係なグローバル コンテキストから解きほぐします。
もつれを解くプロセスには 2 つの段階が含まれます。
1 つ目は、大まかなもつれ解除推定用のフレーム間静的動的分割モジュール (ISSM) です。これは、フレーム間の相関関係を調べて、コンテンツを認識した分割インデックスをオンザフライで生成します。
これらのインデックスを利用して、フレームの特徴を 2 つのグループに分割します。1 つは全体的な類似性が高く、もう 1 つはよりユニークな動的特徴です。
第 2 段階は、さらなる改良のためのリフティングベースの凝集分解モジュール (LADM) です。
LADM は、まず ISSM からの 2 つの特徴グループを集約して、アップデーターによってきめの細かいグローバル コンテキスト特徴を取得し、次に、予測子によってグローバル コンテキストから感情関連の顔の動的特徴を解きほぐします。
実地データセットに対する広範な実験により、IFDD が以前の教師あり DFER 手法よりも高い認識精度と同等の効率で優れた性能を発揮することが実証されました。
コードは https://github.com/CyberPegasus/IFDD で入手できます。
要約(オリジナル)
In-the-wild dynamic facial expression recognition (DFER) encounters a significant challenge in recognizing emotion-related expressions, which are often temporally and spatially diluted by emotion-irrelevant expressions and global context. Most prior DFER methods directly utilize coupled spatiotemporal representations that may incorporate weakly relevant features with emotion-irrelevant context bias. Several DFER methods highlight dynamic information for DFER, but following explicit guidance that may be vulnerable to irrelevant motion. In this paper, we propose a novel Implicit Facial Dynamics Disentanglement framework (IFDD). Through expanding wavelet lifting scheme to fully learnable framework, IFDD disentangles emotion-related dynamic information from emotion-irrelevant global context in an implicit manner, i.e., without exploit operations and external guidance. The disentanglement process contains two stages. The first is Inter-frame Static-dynamic Splitting Module (ISSM) for rough disentanglement estimation, which explores inter-frame correlation to generate content-aware splitting indexes on-the-fly. We utilize these indexes to split frame features into two groups, one with greater global similarity, and the other with more unique dynamic features. The second stage is Lifting-based Aggregation-Disentanglement Module (LADM) for further refinement. LADM first aggregates two groups of features from ISSM to obtain fine-grained global context features by an updater, and then disentangles emotion-related facial dynamic features from the global context by a predictor. Extensive experiments on in-the-wild datasets have demonstrated that IFDD outperforms prior supervised DFER methods with higher recognition accuracy and comparable efficiency. Code is available at https://github.com/CyberPegasus/IFDD.
arxiv情報
著者 | Xingjian Wang,Li Chai |
発行日 | 2024-12-18 09:47:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google