Guiding Visual Attention in Deep Convolutional Neural Networks Based on Human Eye Movements

要約

ディープ・コンボリューショナル・ニューラル・ネットワーク(DCNN)は、もともと生物学的な視覚の原理から着想を得て、現在の物体認識の計算モデルに発展した。その結果、神経画像や神経時系列データとの比較を通じて、腹側視覚路と強い構造的・機能的並列性を示している。近年の深層学習の進歩により、この類似性が低下しているように見えるため、計算論的神経科学では、生物学的な妥当性をリバースエンジニアリングして有用なモデルを得ることが課題となっています。これまでの研究では、生物学的にインスパイアされたアーキテクチャがモデルの人間的な類似性を増幅できることが示されているが、本研究では、純粋にデータ駆動型のアプローチを検討する。我々は、人間のアイトラッキングデータを用いて、学習例を直接修正し、それにより、自然画像中のオブジェクト認識中のモデルの視覚的注意を、人間の固定の焦点に向けたり、遠ざけたりするよう誘導する。我々は、人間の参加者のアイトラッキングデータに対して、GradCAMの顕著性マップを通して、異なる操作の種類(すなわち、標準的な、人間のような、そして非人間のような注意)を比較し検証しています。その結果、提案したガイド付き焦点操作は、ネガティブ方向には意図したとおりに働き、非人間的モデルは人間と比較して有意に異質な画像部分に焦点を合わせることが実証された。観察された効果は、カテゴリ特異性が高く、生気や顔の存在によって増強され、フィードフォワード処理が完了した後にのみ発現し、顔検出への強い影響を示唆するものであった。しかし、このアプローチでは、人間類似性の有意な増大は見られなかった。DCNNにおける視覚的注意の応用の可能性と、顔検出の理論へのさらなる示唆を議論する。

要約(オリジナル)

Deep Convolutional Neural Networks (DCNNs) were originally inspired by principles of biological vision, have evolved into best current computational models of object recognition, and consequently indicate strong architectural and functional parallelism with the ventral visual pathway throughout comparisons with neuroimaging and neural time series data. As recent advances in deep learning seem to decrease this similarity, computational neuroscience is challenged to reverse-engineer the biological plausibility to obtain useful models. While previous studies have shown that biologically inspired architectures are able to amplify the human-likeness of the models, in this study, we investigate a purely data-driven approach. We use human eye tracking data to directly modify training examples and thereby guide the models’ visual attention during object recognition in natural images either towards or away from the focus of human fixations. We compare and validate different manipulation types (i.e., standard, human-like, and non-human-like attention) through GradCAM saliency maps against human participant eye tracking data. Our results demonstrate that the proposed guided focus manipulation works as intended in the negative direction and non-human-like models focus on significantly dissimilar image parts compared to humans. The observed effects were highly category-specific, enhanced by animacy and face presence, developed only after feedforward processing was completed, and indicated a strong influence on face detection. With this approach, however, no significantly increased human-likeness was found. Possible applications of overt visual attention in DCNNs and further implications for theories of face detection are discussed.

arxiv情報

著者 Leonard E. van Dyck,Sebastian J. Denzler,Walter R. Gruber
発行日 2022-09-06 16:45:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク