Multi-Task Transformer with uncertainty modelling for Face Based Affective Computing

要約

顔ベースの感情コンピューティングは、顔画像から感情を検出することにあります。
これは、人間の行動を自動的に理解する能力を高めるのに役立ち、人間と機械の相互作用を改善する道を開く可能性があります。
ただし、感情の計算表現を設計するという困難な作業が伴います。
これまでのところ、感情は 2D Valence/Arousal 空間で連続的に表現されるか、Ekman の 7 つの基本感情を使用して離散的に表現されてきました。
あるいは、エクマンのフェイシャル アクション ユニット (AU) システムも、単一の筋肉活性化のコードブックを使用して感情を特徴付けるために使用されています。
ABAW3 および ABAW4 マルチタスク チャレンジは、これら 3 種類のラベルで注釈を付けた大規模なデータベースを提供する最初の作品です。
この論文では、原子価覚醒、アクションユニット、および基本的な感情を予測するために共同で学習するための、トランスフォーマーベースのマルチタスク方法を提示します。
アーキテクチャの観点から、この方法ではタスクごとのトークン アプローチを使用して、タスク間の類似性を効率的にモデル化します。
学習の観点から、3 つのタスク アノテーション間の確率の違いをモデル化するために、不確実性加重損失を使用します。

要約(オリジナル)

Face based affective computing consists in detecting emotions from face images. It is useful to unlock better automatic comprehension of human behaviours and could pave the way toward improved human-machines interactions. However it comes with the challenging task of designing a computational representation of emotions. So far, emotions have been represented either continuously in the 2D Valence/Arousal space or in a discrete manner with Ekman’s 7 basic emotions. Alternatively, Ekman’s Facial Action Unit (AU) system have also been used to caracterize emotions using a codebook of unitary muscular activations. ABAW3 and ABAW4 Multi-Task Challenges are the first work to provide a large scale database annotated with those three types of labels. In this paper we present a transformer based multi-task method for jointly learning to predict valence arousal, action units and basic emotions. From an architectural standpoint our method uses a taskwise token approach to efficiently model the similarities between the tasks. From a learning point of view we use an uncertainty weighted loss for modelling the difference of stochasticity between the three tasks annotations.

arxiv情報

著者 Gauthier Tallec,Jules Bonnard,Arnaud Dapogny,Kévin Bailly
発行日 2022-12-12 10:20:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク