FAN-Trans: Online Knowledge Distillation for Facial Action Unit Detection

要約

顔の行動分析におけるその重要性により、顔のアクション ユニット (AU) 検出は、研究コミュニティからますます注目を集めています。
オンライン知識蒸留フレームワークを活用して、AU 検出のための「FANTrans」メソッドを提案します。
私たちのモデルは、AU ごとの特徴を学習し、AU 共起をモデル化するための畳み込みブロックと変換ブロックのハイブリッド ネットワークで構成されています。
このモデルは、事前にトレーニングされた顔の位置合わせネットワークを特徴抽出器として使用します。
小さな学習可能なアドオンの畳み込みサブネットによるさらなる変換の後、AU ごとの機能が変換ブロックに供給されて、その表現が強化されます。
複数の AU が一緒に表示されることが多いため、異なる AU の機能間の相関関係を学習するために、Transformer ブロックに学習可能なアテンション ドロップ メカニズムを提案します。
また、すべての AU の機能を考慮して AU の存在を予測し、ラベルの依存関係を明示的にキャプチャする分類子も設計します。
最後に、このタスクのトレーニング段階でオンライン知識の蒸留を適応させ、モデルのパフォーマンスをさらに改善しようとします。
提案された方法の有効性を実証する BP4D および DISFA データセットに関する実験。

要約(オリジナル)

Due to its importance in facial behaviour analysis, facial action unit (AU) detection has attracted increasing attention from the research community. Leveraging the online knowledge distillation framework, we propose the “FANTrans’ method for AU detection. Our model consists of a hybrid network of convolution and transformer blocks to learn per-AU features and to model AU co-occurrences. The model uses a pre-trained face alignment network as the feature extractor. After further transformation by a small learnable add-on convolutional subnet, the per-AU features are fed into transformer blocks to enhance their representation. As multiple AUs often appear together, we propose a learnable attention drop mechanism in the transformer block to learn the correlation between the features for different AUs. We also design a classifier that predicts AU presence by considering all AUs’ features, to explicitly capture label dependencies. Finally, we make the attempt of adapting online knowledge distillation in the training stage for this task, further improving the model’s performance. Experiments on the BP4D and DISFA datasets demonstrating the effectiveness of proposed method.

arxiv情報

著者 Jing Yang,Jie Shen,Yiming Lin,Yordan Hristov,Maja Pantic
発行日 2022-11-11 11:35:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク