Facial Expression Recognition and Image Description Generation in Vietnamese

要約

本論文では、画像と画像中の人物の表情の説明文を構築するための表情認識モデルと説明生成モデルについて説明します。
私たちの研究は、YOLOv5 が KDEF データセットのすべての感情について、従来の CNN よりも優れた結果を達成することを示しています。
特に、感情認識の CNN モデルと YOLOv5 モデルの精度は、それぞれ 0.853 と 0.938 です。
マージされたアーキテクチャに基づいて画像の説明を生成するためのモデルは、LSTM モデルでエンコードされた説明で VGG16 を使用して提案されます。
YOLOv5 は、画像内のオブジェクトのドミナント カラーを認識し、必要に応じて生成された説明内のカラー ワードを修正するためにも使用されます。
説明に人物を指す言葉が含まれている場合、画像内の人物の感情を認識します。
最後に、すべてのモデルの結果を組み合わせて、画像内の視覚的コンテンツと人間の感情を説明する文章を作成します。
ベトナム語の Flickr8k データセットの実験結果は、BLEU-1、BLEU-2、BLEU-3、BLEU-4 のスコア 0.628 を達成しました。
0.425;
0.280;
と 0.174、それぞれ。

要約(オリジナル)

This paper discusses a facial expression recognition model and a description generation model to build descriptive sentences for images and facial expressions of people in images. Our study shows that YOLOv5 achieves better results than a traditional CNN for all emotions on the KDEF dataset. In particular, the accuracies of the CNN and YOLOv5 models for emotion recognition are 0.853 and 0.938, respectively. A model for generating descriptions for images based on a merged architecture is proposed using VGG16 with the descriptions encoded over an LSTM model. YOLOv5 is also used to recognize dominant colors of objects in the images and correct the color words in the descriptions generated if it is necessary. If the description contains words referring to a person, we recognize the emotion of the person in the image. Finally, we combine the results of all models to create sentences that describe the visual content and the human emotions in the images. Experimental results on the Flickr8k dataset in Vietnamese achieve BLEU-1, BLEU-2, BLEU-3, BLEU-4 scores of 0.628; 0.425; 0.280; and 0.174, respectively.

arxiv情報

著者 Khang Nhut Lam,Kim-Ngoc Thi Nguyen,Loc Huu Nguy,Jugal Kalita
発行日 2022-08-12 04:45:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク