A Dual-Stream Neural Network Explains the Functional Segregation of Dorsal and Ventral Visual Pathways in Human Brains

要約

人間の視覚システムは、空間処理と物体認識に 2 つの並行経路を使用します。
対照的に、コンピュータ ビジョン システムは単一のフィードフォワード経路を使用する傾向があり、人間の視覚よりも堅牢性、適応性、効率性が低くなります。
このギャップを埋めるために、私たちは人間の目と脳にヒントを得たデュアルストリーム視覚モデルを開発しました。
入力レベルでは、モデルは 2 つの相補的な視覚パターンをサンプリングして、人間の目が大細胞性および小細胞性の網膜神経節細胞を使用して脳への網膜入力を分離する方法を模倣します。
バックエンドでは、モデルは畳み込みニューラル ネットワーク (CNN) の 2 つのブランチを通じて個別の入力パターンを処理し、人間の脳が並列視覚処理のために背側皮質経路と腹側皮質経路を使用する方法を模倣します。
最初のブランチ (WhereCNN) は、空間的注意を学習し、目の動きを制御するために全体的なビューをサンプリングします。
2 番目のブランチ (WhatCNN) は、ローカル ビューをサンプリングして、注視点の周囲のオブジェクトを表します。
時間の経過とともに、2 つのブランチは繰り返し相互作用して、移動する注視からシーン表現を構築します。
私たちはこのモデルを同じ映画を処理している人間の脳と比較し、線形変換によって機能的整合性を評価しました。
WhereCNN と WhatCNN のブランチは、主に学習目的が異なるため、視覚野の背側経路と腹側経路にそれぞれ異なって一致することが判明しました。
これらのモデルベースの結果は、腹側流れと背側流れの異なる反応と表現は、網膜入力におけるそれらの特定の偏りや選択性よりも、視覚的注意と物体認識におけるそれらの明確な目標によってより影響されると推測することにつながります。
このデュアル ストリーム モデルは、脳にインスピレーションを得たコンピューター ビジョンをさらに進化させ、並列ニューラル ネットワークが視覚的な周囲を積極的に探索して理解できるようにします。

要約(オリジナル)

The human visual system uses two parallel pathways for spatial processing and object recognition. In contrast, computer vision systems tend to use a single feedforward pathway, rendering them less robust, adaptive, or efficient than human vision. To bridge this gap, we developed a dual-stream vision model inspired by the human eyes and brain. At the input level, the model samples two complementary visual patterns to mimic how the human eyes use magnocellular and parvocellular retinal ganglion cells to separate retinal inputs to the brain. At the backend, the model processes the separate input patterns through two branches of convolutional neural networks (CNN) to mimic how the human brain uses the dorsal and ventral cortical pathways for parallel visual processing. The first branch (WhereCNN) samples a global view to learn spatial attention and control eye movements. The second branch (WhatCNN) samples a local view to represent the object around the fixation. Over time, the two branches interact recurrently to build a scene representation from moving fixations. We compared this model with the human brains processing the same movie and evaluated their functional alignment by linear transformation. The WhereCNN and WhatCNN branches were found to differentially match the dorsal and ventral pathways of the visual cortex, respectively, primarily due to their different learning objectives. These model-based results lead us to speculate that the distinct responses and representations of the ventral and dorsal streams are more influenced by their distinct goals in visual attention and object recognition than by their specific bias or selectivity in retinal inputs. This dual-stream model takes a further step in brain-inspired computer vision, enabling parallel neural networks to actively explore and understand the visual surroundings.

arxiv情報

著者 Minkyu Choi,Kuan Han,Xiaokai Wang,Yizhen Zhang,Zhongming Liu
発行日 2023-11-20 17:23:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク