要約
視覚刺激に対する視覚野の神経応答を正確に予測するモデルは、計算論的神経科学の課題として残されている。本研究では、動物間で共有される視覚・行動表現を学習する、Vision Transformerに基づく新しいアーキテクチャであるV1Tを紹介します。我々は、マウスの一次視覚野から記録された2つの大規模データセットで本モデルを評価し、予測性能において従来の畳み込みベースのモデルを12.7%以上上回る性能を達成した。さらに、Transformerによって学習された注意の重みは、集団の受容野と相関があることを示す。このように、我々のモデルは神経応答予測の新たなベンチマークとなり、視覚野の特徴的な機能を捉えることができる。
要約(オリジナル)
Accurate predictive models of the visual cortex neural response to natural visual stimuli remain a challenge in computational neuroscience. In this work, we introduce V1T, a novel Vision Transformer based architecture that learns a shared visual and behavioral representation across animals. We evaluate our model on two large datasets recorded from mouse primary visual cortex and outperform previous convolution-based models by more than 12.7% in prediction performance. Moreover, we show that the attention weights learned by the Transformer correlate with the population receptive fields. Our model thus sets a new benchmark for neural response prediction and captures characteristic features of the visual cortex.
arxiv情報
著者 | Bryan M. Li,Isabel M. Cornacchia,Nathalie L. Rochefort,Arno Onken |
発行日 | 2023-02-06 18:58:38+00:00 |
arxivサイト | arxiv_id(pdf) |