EmoCAM: Toward Understanding What Drives CNN-based Emotion Recognition

要約

畳み込みニューラル ネットワークは、画像分類、物体認識、画像セグメンテーションなどの画像分析タスクに特に適しています。
ただし、すべての人工ニューラル ネットワークと同様に、これらは「ブラック ボックス」モデルであり、説明可能性が低いという問題があります。
この研究は、画像からの感情認識という特定の下流タスクに関係しており、CAM ベースの技術とコーパス レベルでのオブジェクト検出を組み合わせて、特定のモデル (この場合は EmoNet) が依存する画像の手がかりをよりよく理解するフレームワークを提案しています。
特定の感情を画像に割り当てます。
このモデルは主に人間の特徴に焦点を当てていることを実証しますが、特定の画像変更の顕著な効果も調査します。

要約(オリジナル)

Convolutional Neural Networks are particularly suited for image analysis tasks, such as Image Classification, Object Recognition or Image Segmentation. Like all Artificial Neural Networks, however, they are ‘black box’ models, and suffer from poor explainability. This work is concerned with the specific downstream task of Emotion Recognition from images, and proposes a framework that combines CAM-based techniques with Object Detection on a corpus level to better understand on which image cues a particular model, in our case EmoNet, relies to assign a specific emotion to an image. We demonstrate that the model mostly focuses on human characteristics, but also explore the pronounced effect of specific image modifications.

arxiv情報

著者 Youssef Doulfoukar,Laurent Mertens,Joost Vennekens
発行日 2024-07-19 13:47:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク