V1T: large-scale mouse V1 response prediction using a Vision Transformer

要約

自然な視覚刺激に対する視覚野の神経反応の正確な予測モデルは、計算論的神経科学における課題のままです。
この研究では、動物間で共有される視覚的および行動的表現を学習する新しいビジョン トランスフォーマー ベースのアーキテクチャである V1T を紹介します。
私たちはマウスの一次視覚野から記録された 2 つの大規模なデータセットに基づいてモデルを評価し、予測パフォーマンスにおいて以前の畳み込みベースのモデルを 12.7% 以上上回りました。
さらに、Transformer によって学習された自己注意の重みが集団の受容野と相関していることを示します。
したがって、私たちのモデルは神経反応予測の新しいベンチマークを設定し、行動記録および神経記録と併用して視覚野の意味のある特徴を明らかにすることができます。

要約(オリジナル)

Accurate predictive models of the visual cortex neural response to natural visual stimuli remain a challenge in computational neuroscience. In this work, we introduce V1T, a novel Vision Transformer based architecture that learns a shared visual and behavioral representation across animals. We evaluate our model on two large datasets recorded from mouse primary visual cortex and outperform previous convolution-based models by more than 12.7% in prediction performance. Moreover, we show that the self-attention weights learned by the Transformer correlate with the population receptive fields. Our model thus sets a new benchmark for neural response prediction and can be used jointly with behavioral and neural recordings to reveal meaningful characteristic features of the visual cortex.

arxiv情報

著者 Bryan M. Li,Isabel M. Cornacchia,Nathalie L. Rochefort,Arno Onken
発行日 2023-09-05 17:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NE, q-bio.NC パーマリンク