V1T: large-scale mouse V1 response prediction using a Vision Transformer

要約

視覚刺激に対する視覚野の神経応答を正確に予測するモデルは、計算論的神経科学の課題として残されている。本研究では、動物間で共有される視覚・行動表現を学習する、Vision Transformerに基づく新しいアーキテクチャであるV1Tを紹介します。我々は、マウスの一次視覚野から記録された2つの大規模データセットで本モデルを評価し、予測性能において従来の畳み込みベースのモデルを12.7%以上上回る性能を達成した。さらに、Transformerによって学習された注意の重みは、集団の受容野と相関があることを示す。このように、我々のモデルは神経応答予測の新たなベンチマークとなり、視覚野の特徴的な機能を捉えることができる。

要約(オリジナル)

Accurate predictive models of the visual cortex neural response to natural visual stimuli remain a challenge in computational neuroscience. In this work, we introduce V1T, a novel Vision Transformer based architecture that learns a shared visual and behavioral representation across animals. We evaluate our model on two large datasets recorded from mouse primary visual cortex and outperform previous convolution-based models by more than 12.7% in prediction performance. Moreover, we show that the attention weights learned by the Transformer correlate with the population receptive fields. Our model thus sets a new benchmark for neural response prediction and captures characteristic features of the visual cortex.

arxiv情報

著者 Bryan M. Li,Isabel M. Cornacchia,Nathalie L. Rochefort,Arno Onken
発行日 2023-02-06 18:58:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.NE, q-bio.NC パーマリンク