SS-VAERR: Self-Supervised Apparent Emotional Reaction Recognition from Video

要約

この作業は、ビデオのみの入力からの見かけの感情反応認識 (AERR) に焦点を当てており、自己監視型の方法で行われます。
ネットワークは、最初にさまざまな自己教師ありの口実タスクで事前トレーニングされ、後で下流のターゲット タスクで微調整されます。
自己教師あり学習は、事前にトレーニングされたアーキテクチャと、ターゲット タスクには適さないと見なされる可能性のある大規模なデータセットの使用を容易にしますが、有益な表現を学習するのに役立つ可能性があるため、小規模でより適切なデータをさらに微調整するための有用な初期化を提供します。
提示された貢献は 2 つあります: (1) ビデオのみの明らかな感情反応認識アーキテクチャのさまざまな最先端 (SOTA) 口実タスクの分析、および (2) 回帰のさまざまな組み合わせの分析。
パフォーマンスをさらに改善する可能性が高い分類損失。
これら 2 つの貢献により、継続的な注釈を使用したビデオのみの自発的な明らかな感情的反応認識の現在の最先端のパフォーマンスが実現します。

要約(オリジナル)

This work focuses on the apparent emotional reaction recognition (AERR) from the video-only input, conducted in a self-supervised fashion. The network is first pre-trained on different self-supervised pretext tasks and later fine-tuned on the downstream target task. Self-supervised learning facilitates the use of pre-trained architectures and larger datasets that might be deemed unfit for the target task and yet might be useful to learn informative representations and hence provide useful initializations for further fine-tuning on smaller more suitable data. Our presented contribution is two-fold: (1) an analysis of different state-of-the-art (SOTA) pretext tasks for the video-only apparent emotional reaction recognition architecture, and (2) an analysis of various combinations of the regression and classification losses that are likely to improve the performance further. Together these two contributions result in the current state-of-the-art performance for the video-only spontaneous apparent emotional reaction recognition with continuous annotations.

arxiv情報

著者 Marija Jegorova,Stavros Petridis,Maja Pantic
発行日 2022-10-20 15:21:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク