Data Augmentation and Transfer Learning Approaches Applied to Facial Expressions Recognition

要約

人の心の状態を理解したいとき、私たちが最初に注目するのは顔の表情です。
したがって、顔の表情を自動的に認識する能力は、非常に興味深い研究分野です。
この論文では、利用可能なトレーニング データセットのサイズが小さいため、認識タスクのパフォーマンスを向上させる新しいデータ拡張手法を提案します。
幾何学的変換を適用し、感情の種類ごとに新しい合成画像を生成できる GAN モデルを一から構築します。
したがって、拡張されたデータセット上で、さまざまなアーキテクチャを備えた事前学習済みの畳み込みニューラル ネットワークを微調整します。
モデルの一般化能力を測定するために、データベース外プロトコルのアプローチを適用します。つまり、トレーニング データセットの拡張バージョンでモデルをトレーニングし、2 つの異なるデータベースでテストします。
これらの手法を組み合わせることで、InceptionResNetV2 モデルの平均精度値が 85\% 程度に達することが可能になります。

要約(オリジナル)

The face expression is the first thing we pay attention to when we want to understand a person’s state of mind. Thus, the ability to recognize facial expressions in an automatic way is a very interesting research field. In this paper, because the small size of available training datasets, we propose a novel data augmentation technique that improves the performances in the recognition task. We apply geometrical transformations and build from scratch GAN models able to generate new synthetic images for each emotion type. Thus, on the augmented datasets we fine tune pretrained convolutional neural networks with different architectures. To measure the generalization ability of the models, we apply extra-database protocol approach, namely we train models on the augmented versions of training dataset and test them on two different databases. The combination of these techniques allows to reach average accuracy values of the order of 85\% for the InceptionResNetV2 model.

arxiv情報

著者 Enrico Randellini,Leonardo Rigutini,Claudio Sacca’
発行日 2024-02-15 14:46:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク