V1T: large-scale mouse V1 response prediction using a Vision Transformer

要約

自然な視覚刺激に対する視覚皮質神経応答の正確な予測モデルは、計算神経科学における課題のままです。
この作業では、動物間で共有される視覚的および行動的表現を学習する新しいビジョン トランスフォーマー ベースのアーキテクチャである V1T を紹介します。
マウスの一次視覚野から記録された 2 つの大規模なデータセットでモデルを評価し、以前の畳み込みベースのモデルよりも予測パフォーマンスが 12.7% 以上優れています。
さらに、トランスフォーマーによって学習された注意の重みが、母集団の受容野と相関することを示します。
したがって、私たちのモデルは、神経応答予測の新しいベンチマークを設定し、視覚野の特徴的な機能をキャプチャします。

要約(オリジナル)

Accurate predictive models of the visual cortex neural response to natural visual stimuli remain a challenge in computational neuroscience. In this work, we introduce V1T, a novel Vision Transformer based architecture that learns a shared visual and behavioral representation across animals. We evaluate our model on two large datasets recorded from mouse primary visual cortex and outperform previous convolution-based models by more than 12.7% in prediction performance. Moreover, we show that the attention weights learned by the Transformer correlate with the population receptive fields. Our model thus sets a new benchmark for neural response prediction and captures characteristic features of the visual cortex.

arxiv情報

著者 Bryan M. Li,Isabel M. Cornacchia,Nathalie L. Rochefort,Arno Onken
発行日 2023-02-27 15:03:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NE, q-bio.NC パーマリンク