要約
ビデオベースの表情認識 (V-FER) では、モデルは通常、固定数の既知のクラスを含む閉セット データセットでトレーニングされます。
ただし、これらのモデルは、現実世界のシナリオで一般的な未知のクラスに対処するのに苦労します。
この論文では、既知の表情と新しいまだ見たことのない表情の両方を識別することを目的とした、挑戦的なオープンセット ビデオベースの表情認識 (OV-FER) タスクを紹介します。
既存のアプローチは、CLIP のような大規模な視覚言語モデルを使用して目に見えないクラスを識別しますが、これらの方法は OV-FER に必要な人間の微妙な表現を適切に捕捉できない可能性があると私たちは主張します。
この制限に対処するために、ビデオベースの表情の詳細を効果的にモデル化する CLIP の機能を大幅に強化する新しい Human Expression-Sensitive Prompting (HESP) メカニズムを提案します。
私たちが提案する HESP は 3 つのコンポーネントで構成されます: 1) 既知および未知の感情の両方の CLIP のテキスト表現を強化するための学習可能なプロンプトを備えたテキスト プロンプト モジュール、2) 表情に敏感な注意を使用してビデオ フレームから一時的な感情情報をエンコードし、CLIP に装備する視覚プロンプト モジュール
感情豊かな情報を抽出する新しいビジュアルモデリング機能、および 3) テキストモジュールとビジュアルモジュール間の相互作用を促進するオープンセットマルチタスク学習スキームを備え、ビデオシーケンス内の新しい人間の感情の理解を向上させます。
4 つの OV-FER タスク設定で行われた広範な実験により、HESP が CLIP のパフォーマンスを大幅に向上させ (AUROC で 17.93%、OSCR で 106.18% の相対的な向上)、他の最先端のオープンセット ビデオ理解手法を上回るパフォーマンスを発揮できることが実証されました。
大きなマージン。
コードは https://github.com/cosinehuang/HESP で入手できます。
要約(オリジナル)
In Video-based Facial Expression Recognition (V-FER), models are typically trained on closed-set datasets with a fixed number of known classes. However, these models struggle with unknown classes common in real-world scenarios. In this paper, we introduce a challenging Open-set Video-based Facial Expression Recognition (OV-FER) task, aiming to identify both known and new, unseen facial expressions. While existing approaches use large-scale vision-language models like CLIP to identify unseen classes, we argue that these methods may not adequately capture the subtle human expressions needed for OV-FER. To address this limitation, we propose a novel Human Expression-Sensitive Prompting (HESP) mechanism to significantly enhance CLIP’s ability to model video-based facial expression details effectively. Our proposed HESP comprises three components: 1) a textual prompting module with learnable prompts to enhance CLIP’s textual representation of both known and unknown emotions, 2) a visual prompting module that encodes temporal emotional information from video frames using expression-sensitive attention, equipping CLIP with a new visual modeling ability to extract emotion-rich information, and 3) an open-set multi-task learning scheme that promotes interaction between the textual and visual modules, improving the understanding of novel human emotions in video sequences. Extensive experiments conducted on four OV-FER task settings demonstrate that HESP can significantly boost CLIP’s performance (a relative improvement of 17.93% on AUROC and 106.18% on OSCR) and outperform other state-of-the-art open-set video understanding methods by a large margin. Code is available at https://github.com/cosinehuang/HESP.
arxiv情報
著者 | Yuanyuan Liu,Yuxuan Huang,Shuyang Liu,Yibing Zhan,Zijing Chen,Zhe Chen |
発行日 | 2024-08-01 06:46:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google