Aligning Neuronal Coding of Dynamic Visual Scenes with Foundation Vision Models

要約

私たちの脳は、非常にダイナミックな方法でニューロンを使用して、絶えず変化する環境を表します。
動的な自然のシーンにおける視覚ピクセルの時間的特徴は、網膜の神経反応に閉じ込められています。
視覚ピクセルと神経反応の間の固有の時間的関係を確立することが重要です。
最近の基礎ビジョン モデルは、画像ピクセルを理解するための高度な方法を確立しました。
しかし、脳内のニューロンコーディングは、ピクセルとの位置関係についての深い理解がほとんど不足しています。
これまでの研究のほとんどは、より現実的で複雑な刺激をエミュレートするために、静止画像または静止画像から派生した人工ビデオを使用していました。
これらの単純なシナリオは、ビジュアル コーディングに影響を与える主要な要素を効果的に分離するのに役立ちますが、複雑な時間的関係は考慮されていません。
自然シーンにおける視覚コーディングの時間的特徴を分解するために、ここでは、網膜ニューロン集団の時間ベースのエンコーディング パターンを解明することを目的とした、事前に自己教師ありビジョン トランスフォーマー (ViT) を備えた時空間畳み込みニューラル ネットワークである Vi-ST を提案します。

このモデルは、汎化テストで堅牢な予測パフォーマンスを示します。
さらに、詳細なアブレーション実験を通じて、各時間モジュールの重要性を実証します。
さらに、時間的考慮事項を統合し、相補的コーディングに対するさまざまな数のニューロン集団の影響を比較するように設計された視覚的コーディング評価指標を導入します。
結論として、私たちが提案したVi-STは、脳内の動的な視覚シーンのニューロンコーディングのための新しいモデリングフレームワークを実証し、ビデオの脳表現をニューロン活動と効果的に一致させます。
コードは https://github.com/wurining/Vi-ST で入手できます。

要約(オリジナル)

Our brains represent the ever-changing environment with neurons in a highly dynamic fashion. The temporal features of visual pixels in dynamic natural scenes are entrapped in the neuronal responses of the retina. It is crucial to establish the intrinsic temporal relationship between visual pixels and neuronal responses. Recent foundation vision models have paved an advanced way of understanding image pixels. Yet, neuronal coding in the brain largely lacks a deep understanding of its alignment with pixels. Most previous studies employ static images or artificial videos derived from static images for emulating more real and complicated stimuli. Despite these simple scenarios effectively help to separate key factors influencing visual coding, complex temporal relationships receive no consideration. To decompose the temporal features of visual coding in natural scenes, here we propose Vi-ST, a spatiotemporal convolutional neural network fed with a self-supervised Vision Transformer (ViT) prior, aimed at unraveling the temporal-based encoding patterns of retinal neuronal populations. The model demonstrates robust predictive performance in generalization tests. Furthermore, through detailed ablation experiments, we demonstrate the significance of each temporal module. Furthermore, we introduce a visual coding evaluation metric designed to integrate temporal considerations and compare the impact of different numbers of neuronal populations on complementary coding. In conclusion, our proposed Vi-ST demonstrates a novel modeling framework for neuronal coding of dynamic visual scenes in the brain, effectively aligning our brain representation of video with neuronal activity. The code is available at https://github.com/wurining/Vi-ST.

arxiv情報

著者 Rining Wu,Feixiang Zhou,Ziwei Yin,Jian K. Liu
発行日 2024-07-15 14:06:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク