Multi-label Transformer for Action Unit Detection

要約

アクション ユニット (AU) 検出は、単一の顔の筋肉の動きを認識することを目的とした感情的コンピューティングの分野です。
偏りのない計算による顔の表現を解き放つことが重要であるため、ここ数年で大きな関心を集めています。
効率的な深層学習ベースの AU 検出システムを構築する上での主な障害の 1 つは、AU の専門家によって注釈が付けられた幅広い顔画像データベースがないことです。
その範囲で、ABAW チャレンジは 2M フレームの AU 注釈付きデータセットを含むため、より良い AU 検出への道を開きます。
このホワイト ペーパーでは、ABAW3 チャレンジへの提出物を紹介します。
簡単に言えば、マルチヘッドアテンションを活用して顔画像のどの部分が各 AU を予測するのに最も関連性があるかを学習するマルチラベル検出トランスフォーマーを適用しました。

要約(オリジナル)

Action Unit (AU) Detection is the branch of affective computing that aims at recognizing unitary facial muscular movements. It is key to unlock unbiased computational face representations and has therefore aroused great interest in the past few years. One of the main obstacles toward building efficient deep learning based AU detection system is the lack of wide facial image databases annotated by AU experts. In that extent the ABAW challenge paves the way toward better AU detection as it involves a 2M frames AU annotated dataset. In this paper, we present our submission to the ABAW3 challenge. In a nutshell, we applied a multi-label detection transformer that leverage multi-head attention to learn which part of the face image is the most relevant to predict each AU.

arxiv情報

著者 Gauthier Tallec,Edouard Yvinec,Arnaud Dapogny,Kevin Bailly
発行日 2022-12-12 10:25:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク