Do humans and Convolutional Neural Networks attend to similar areas during scene classification: Effects of task and image type

要約

畳み込みニューラル ネットワーク (CNN) のような深層学習モデルは強力な画像分類器ですが、人間と同様の画像領域に注目するかどうかを決定する要因は何でしょうか?
これまでの研究は技術的要因に焦点を当ててきましたが、人間の注意に影響を与える要因の役割についてはほとんど知られていません。
本研究では、人間と CNN の類似性を調整する際に、人間の注意マップを引き出すために使用されるタスクが画像の特徴とどのように相互作用するかを調査しました。
私たちは人間のタスクの意図性を、分類中の自発的な視線から意図的な視線の指示、手動による領域の選択まで、さまざまに変化させました。
さらに、単一の顕著なオブジェクト、オブジェクトの配置で構成される屋内シーン、またはカテゴリを定義する明確なオブジェクトのない風景のいずれかを使用して、分類する画像のタイプを変更しました。
このようにして生成された人間の注意マップは、説明可能な人工知能 (Grad-CAM) によって明らかにされた CNN アテンション マップと比較されました。
人間のタスクの影響は画像の種類に強く依存します。オブジェクトの場合、人間の手動選択により CNN に最もよく似たマップが生成されましたが、特定の目の動きのタスクにはほとんど影響がありませんでした。
屋内のシーンでは、自発的な視線による類似性が最も低くなりますが、風景の場合は、人間のすべてのタスクにわたって類似性が同様に低かったです。
これらの結果をよりよく理解するために、さまざまな人間の注意マップを相互に比較しました。
私たちの結果は、人間と CNN の注意を比較する際に、人間の要因を考慮することの重要性を強調しています。

要約(オリジナル)

Deep Learning models like Convolutional Neural Networks (CNN) are powerful image classifiers, but what factors determine whether they attend to similar image areas as humans do? While previous studies have focused on technological factors, little is known about the role of factors that affect human attention. In the present study, we investigated how the tasks used to elicit human attention maps interact with image characteristics in modulating the similarity between humans and CNN. We varied the intentionality of human tasks, ranging from spontaneous gaze during categorization over intentional gaze-pointing up to manual area selection. Moreover, we varied the type of image to be categorized, using either singular, salient objects, indoor scenes consisting of object arrangements, or landscapes without distinct objects defining the category. The human attention maps generated in this way were compared to the CNN attention maps revealed by explainable artificial intelligence (Grad-CAM). The influence of human tasks strongly depended on image type: For objects, human manual selection produced maps that were most similar to CNN, while the specific eye movement task has little impact. For indoor scenes, spontaneous gaze produced the least similarity, while for landscapes, similarity was equally low across all human tasks. To better understand these results, we also compared the different human attention maps to each other. Our results highlight the importance of taking human factors into account when comparing the attention of humans and CNN.

arxiv情報

著者 Romy Müller,Marcel Duerschmidt,Julian Ullrich,Carsten Knoll,Sascha Weber,Steffen Seitz
発行日 2023-07-25 09:02:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC パーマリンク