要約
畳み込みニューラルネットワーク(CNNS)内に直接高次操作を組み込む神経応答予測に対する新しいアプローチを提示します。
私たちのモデルは、畳み込み演算子自体に高次操作を埋め込むことにより、従来の3D CNNを拡張し、空間と時間を超えて隣接するピクセル間の乗算的相互作用の直接モデリングを可能にします。
私たちのモデルは、CNNの深さを高めることなくCNNの表現力を高め、したがって、深い人工ネットワークと生物学的視覚系の比較的浅い処理階層との間の建築的格差に対処します。
2つの異なるデータセットでアプローチを評価します。自然シーンに対するサンショウウオ網膜神経節細胞(RGC)応答と、制御された幾何学的変換に対するマウスRGC応答の新しいデータセットです。
当社の高次CNN(HOCNN)は、標準的なアーキテクチャと比較してトレーニングデータの半分のみを必要としながら優れたパフォーマンスを実現し、神経応答と0.75の最大0.75の相関係数を示しています(0.80 $ \ PM $ 0.02網膜信頼性に対して)。
最先端のアーキテクチャに統合されると、私たちのアプローチは、さまざまな種や刺激条件のパフォーマンスを一貫して改善します。
学習した表現の分析により、当社のネットワークは自然に基本的な幾何学的変換、特にオブジェクトの拡張と収縮を特徴付けるスケーリングパラメーターを自然にエンコードすることが明らかになりました。
この機能は、迫り来るオブジェクトとオブジェクトの動きをそれぞれ検出することが知られている細胞上の一時的なオフアルファや過渡などの特定の細胞タイプに特に関連しています。
スケーリングパラメーターの相関係数は、ベースラインモデル(0.32)と比較して、HOCNN(0.72)の2倍以上の高さです。
要約(オリジナル)
We present a novel approach to neural response prediction that incorporates higher-order operations directly within convolutional neural networks (CNNs). Our model extends traditional 3D CNNs by embedding higher-order operations within the convolutional operator itself, enabling direct modeling of multiplicative interactions between neighboring pixels across space and time. Our model increases the representational power of CNNs without increasing their depth, therefore addressing the architectural disparity between deep artificial networks and the relatively shallow processing hierarchy of biological visual systems. We evaluate our approach on two distinct datasets: salamander retinal ganglion cell (RGC) responses to natural scenes, and a new dataset of mouse RGC responses to controlled geometric transformations. Our higher-order CNN (HoCNN) achieves superior performance while requiring only half the training data compared to standard architectures, demonstrating correlation coefficients up to 0.75 with neural responses (against 0.80$\pm$0.02 retinal reliability). When integrated into state-of-the-art architectures, our approach consistently improves performance across different species and stimulus conditions. Analysis of the learned representations reveals that our network naturally encodes fundamental geometric transformations, particularly scaling parameters that characterize object expansion and contraction. This capability is especially relevant for specific cell types, such as transient OFF-alpha and transient ON cells, which are known to detect looming objects and object motion respectively, and where our model shows marked improvement in response prediction. The correlation coefficients for scaling parameters are more than twice as high in HoCNN (0.72) compared to baseline models (0.32).
arxiv情報
著者 | Simone Azeglio,Victor Calbiague Garcia,Guilhem Glaziou,Peter Neri,Olivier Marre,Ulisse Ferrari |
発行日 | 2025-05-12 14:43:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google