要約
この論文では、ビデオ データからの動的マルチ出力顔表情強度推定 (FEIE) のための新しい深層学習アーキテクチャである MMA-MRNNet について説明します。
このタスクに対する従来のアプローチは、複雑な 3D CNN に依存することが多く、これには広範な事前トレーニングが必要であり、顔の表情がビデオのすべてのフレームに均一に分布していると想定されています。
これらの方法では、さまざまな長さのビデオを処理するのが難しく、多くの場合、貴重な情報を破棄したり、バイアスを導入したりする場当たり的な戦略に頼ることになります。
MMA-MRNNet は、2 段階のプロセスを通じてこれらの課題に対処します。
まず、Multiple Models of Affect (MMA) 抽出コンポーネントは、価性覚醒の推定、基本的な顔の表情の認識、および各フレーム内のアクション ユニットの検出を同時に行うマルチタスク学習 CNN です。
これらの表現は、マスクされた RNN コンポーネントによって処理されます。マスクされた RNN コンポーネントは、時間的な依存関係をキャプチャし、入力ビデオの実際の長さに応じて重みを動的に更新し、最も関連性の高い特徴のみが最終的な予測に使用されるようにします。
提案された単峰性非アンサンブル学習 MMA-MRNNet は、ヒューム反応データセットで評価され、単峰性、多峰性、またはアンサンブルのいずれのアプローチであっても、最先端の手法を大幅に上回り、大幅に優れたパフォーマンスを実証しました。
。
最後に、私たちが提案した方法の MMA コンポーネントの有効性を複数の実際のデータセットにわたって実証し、さまざまな指標にわたってすべての最先端の方法よりも一貫して優れたパフォーマンスを示しました。
要約(オリジナル)
This paper presents MMA-MRNNet, a novel deep learning architecture for dynamic multi-output Facial Expression Intensity Estimation (FEIE) from video data. Traditional approaches to this task often rely on complex 3-D CNNs, which require extensive pre-training and assume that facial expressions are uniformly distributed across all frames of a video. These methods struggle to handle videos of varying lengths, often resorting to ad-hoc strategies that either discard valuable information or introduce bias. MMA-MRNNet addresses these challenges through a two-stage process. First, the Multiple Models of Affect (MMA) extractor component is a Multi-Task Learning CNN that concurrently estimates valence-arousal, recognizes basic facial expressions, and detects action units in each frame. These representations are then processed by a Masked RNN component, which captures temporal dependencies and dynamically updates weights according to the true length of the input video, ensuring that only the most relevant features are used for the final prediction. The proposed unimodal non-ensemble learning MMA-MRNNet was evaluated on the Hume-Reaction dataset and demonstrated significantly superior performance, surpassing state-of-the-art methods by a wide margin, regardless of whether they were unimodal, multimodal, or ensemble approaches. Finally, we demonstrated the effectiveness of the MMA component of our proposed method across multiple in-the-wild datasets, where it consistently outperformed all state-of-the-art methods across various metrics.
arxiv情報
著者 | Dimitrios Kollias,Andreas Psaroudakis,Anastasios Arsenos,Paraskevi Theofilou,Chunchang Shao,Guanyu Hu,Ioannis Patras |
発行日 | 2024-09-04 11:56:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google