Mixed Evidence for Gestalt Grouping in Deep Neural Networks

要約

ゲシュタルト心理学者は、人間がシーンの要素をグループまたは全体に編成する一連の条件を特定しており、知覚的グループ化の原則がシーンの認識とオブジェクトの識別に重要な役割を果たしています。
最近、自然画像 (ImageNet) でトレーニングされたディープ ニューラル ネットワーク (DNN) が、さまざまな脳や行動のベンチマークでうまく機能するという報告に基づいて、人間の視覚の説得力のあるモデルとして提案されています。
ここでは、ドット (実験 1) およびより複雑な形状 (実験 2) 刺激で、さまざまなアーキテクチャと学習パラダイム (畳み込み、注意ベース、教師ありおよび自己教師あり、フィードフォワードおよびリカレント) をカバーする合計 16 のネットワークをテストします。
人間に強力なゲシュタルト効果をもたらします。
実験 1 では、たたみ込みネットワークが実際に人間のように近接性、線形性、および方向の原則に敏感であることがわかりましたが、それは出力層でのみでした。
実験 2 では、ほとんどのネットワークがゲシュタルト効果を示したのは数セットのみであり、これも処理の最後の段階でのみであることがわかりました。
全体として、自己教師ありの Vision-Transformer は、人間の類似性という点で畳み込みネットワークよりもパフォーマンスが悪いように見えました。
驚くべきことに、処理の初期または中間段階でグループ化効果を示すモデルはありませんでした。
これは、ゲシュタルトが物体認識の前に発生し、実際、物体認識のために視覚シーンを編成するのに役立つという広く普及している仮定と矛盾しています。
私たちの全体的な結論は、単純な 2D 画像でトレーニングされたネットワークが出力層でのいくつかの刺激に対してゲシュタルト グループ化の形式をサポートしていることは注目に値しますが、この機能はより複雑な機能には移行しないようです。
さらに、このグループ化が最後の層でのみ発生するという事実は、ネットワークが人間とは根本的に異なる知覚特性を学習することを示唆しています。

要約(オリジナル)

Gestalt psychologists have identified a range of conditions in which humans organize elements of a scene into a group or whole, and perceptual grouping principles play an essential role in scene perception and object identification. Recently, Deep Neural Networks (DNNs) trained on natural images (ImageNet) have been proposed as compelling models of human vision based on reports that they perform well on various brain and behavioral benchmarks. Here we test a total of 16 networks covering a variety of architectures and learning paradigms (convolutional, attention-based, supervised and self-supervised, feed-forward and recurrent) on dots (Experiment 1) and more complex shapes (Experiment 2) stimuli that produce strong Gestalts effects in humans. In Experiment 1 we found that convolutional networks were indeed sensitive in a human-like fashion to the principles of proximity, linearity, and orientation, but only at the output layer. In Experiment 2, we found that most networks exhibited Gestalt effects only for a few sets, and again only at the latest stage of processing. Overall, self-supervised and Vision-Transformer appeared to perform worse than convolutional networks in terms of human similarity. Remarkably, no model presented a grouping effect at the early or intermediate stages of processing. This is at odds with the widespread assumption that Gestalts occur prior to object recognition, and indeed, serve to organize the visual scene for the sake of object recognition. Our overall conclusion is that, albeit noteworthy that networks trained on simple 2D images support a form of Gestalt grouping for some stimuli at the output layer, this ability does not seem to transfer to more complex features. Additionally, the fact that this grouping only occurs at the last layer suggests that networks learn fundamentally different perceptual properties than humans.

arxiv情報

著者 Valerio Biscione,Jeffrey S. Bowers
発行日 2023-02-20 10:57:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク