要約
人間を含む多くの動物に共通する特性である中心窩視覚は、生物学的な視覚機能に大きく貢献しているにもかかわらず、機械学習アプリケーションでは十分に活用されていません。
この研究では、中心窩視覚の重要な要素である網膜局所マッピングが、深層畳み込みニューラル ネットワーク (CNN) に統合された場合に、画像の分類と位置特定のパフォーマンスを向上できるかどうかを調査します。
網点マッピングは、標準的な既製の畳み込みニューラル ネットワーク (CNN) の入力に統合され、その後 ImageNet タスクで再トレーニングされました。
予想通り、対数極性マッピングにより、特に孤立したオブジェクトの場合に、任意の画像ズームと回転を処理するネットワークの能力が向上しました。
驚くべきことに、網膜局所的にマッピングされたネットワークは、分類において同等のパフォーマンスを達成しました。
さらに、ネットワークは、変換の中心窩中心がシフトされた場合に分類位置特定が向上することを実証しました。
これは、典型的な畳み込みニューラル ネットワーク (CNN) には存在しない、人間の視覚システムの重要な能力を再現します。
これらの発見は、網膜局所マッピングが重要な前注意視覚プロセスの基礎となる可能性があることを示唆しています。
要約(オリジナル)
Foveated vision, a trait shared by many animals, including humans, has not been fully utilized in machine learning applications, despite its significant contributions to biological visual function. This study investigates whether retinotopic mapping, a critical component of foveated vision, can enhance image categorization and localization performance when integrated into deep convolutional neural networks (CNNs). Retinotopic mapping was integrated into the inputs of standard off-the-shelf convolutional neural networks (CNNs), which were then retrained on the ImageNet task. As expected, the logarithmic-polar mapping improved the network’s ability to handle arbitrary image zooms and rotations, particularly for isolated objects. Surprisingly, the retinotopically mapped network achieved comparable performance in classification. Furthermore, the network demonstrated improved classification localization when the foveated center of the transform was shifted. This replicates a crucial ability of the human visual system that is absent in typical convolutional neural networks (CNNs). These findings suggest that retinotopic mapping may be fundamental to significant preattentive visual processes.
arxiv情報
著者 | Jean-Nicolas Jérémie,Emmanuel Daucé,Laurent U Perrinet |
発行日 | 2024-08-09 15:40:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google