Matching the Neuronal Representations of V1 is Necessary to Improve Robustness in CNNs with V1-like Front-ends


一部の畳み込みニューラル ネットワーク (CNN) は物体認識で大きな成功を収めていますが、さまざまな種類の一般的なノイズ パターンで破損した画像内の物体を識別するのは困難です。
最近、CNN の最前部にある初期の視覚領域での計算をシミュレートすると、画像破損に対する堅牢性の向上につながることが示されました。
今回、我々はこの結果をさらに調査し、霊長類 V1 に見られる RF 特性の分布と正確に一致することから生じるニューロン表現が、この堅牢性の向上の鍵であることを示します。
私たちは、霊長類の一次視覚野 (V1) をモデル化するフロントエンドを備えたモデルの 2 つのバリアントを構築しました。1 つは RF 特性を均一にサンプリングし、もう 1 つは経験的な生物学的分布からサンプリングしました。
生物学的サンプリングを使用したモデルは、均一バリアントよりも画像破損に対する堅牢性がかなり高くなります (相対差 8.72%)。
2 つのバリアント間で同様のニューロン部分集団は同様の応答特性を持ち、同様の下流の重みを学習しますが、下流の処理への影響は著しく異なります。


While some convolutional neural networks (CNNs) have achieved great success in object recognition, they struggle to identify objects in images corrupted with different types of common noise patterns. Recently, it was shown that simulating computations in early visual areas at the front of CNNs leads to improvements in robustness to image corruptions. Here, we further explore this result and show that the neuronal representations that emerge from precisely matching the distribution of RF properties found in primate V1 is key for this improvement in robustness. We built two variants of a model with a front-end modeling the primate primary visual cortex (V1): one sampling RF properties uniformly and the other sampling from empirical biological distributions. The model with the biological sampling has a considerably higher robustness to image corruptions that the uniform variant (relative difference of 8.72%). While similar neuronal sub-populations across the two variants have similar response properties and learn similar downstream weights, the impact on downstream processing is strikingly different. This result sheds light on the origin of the improvements in robustness observed in some biologically-inspired models, pointing to the need of precisely mimicking the neuronal representations found in the primate brain.


著者 Ruxandra Barbulescu,Tiago Marques,Arlindo L. Oliveira
発行日 2023-10-16 16:52:15+00:00
