要約
我々は、複雑な非線形生物学的視覚処理に触発された画像分類への新しいアプローチを提案します。これにより、古典的な畳み込みニューラル ネットワーク (CNN) に学習可能な高次の畳み込みが装備されます。
私たちのモデルには、畳み込み演算子の Volterra のような拡張が組み込まれており、生物学的視覚処理の初期段階および高度な段階で観察されるものと同様の乗算相互作用を捕捉します。
標準ベンチマーク (MNIST、FashionMNIST、CIFAR10、CIFAR100、Imagenette) での高次相関のテストに対する感度とパフォーマンスを測定することで、合成データセットに対するこのアプローチを評価しました。
当社のアーキテクチャは従来の CNN ベースラインを上回り、最大 3/4 次までの拡張で最適なパフォーマンスを実現し、自然画像のピクセル強度の分布と非常によく一致します。
体系的な摂動解析を通じて、モデルのパフォーマンスに対する特定の画像統計の寄与を分離することでこの調整を検証し、さまざまな次数の畳み込みが視覚情報の異なる側面をどのように処理するかを実証します。
さらに、表現類似性分析により、ネットワーク層全体で異なる幾何学形状が明らかになり、視覚情報処理の質的に異なるモードが示されます。
私たちの研究は神経科学と深層学習の橋渡しをし、より効果的で生物学にヒントを得たコンピューター ビジョン モデルへの道を提供します。
これは、視覚情報処理に関する洞察を提供し、特にリソースに制約のあるシナリオにおいて、複雑な視覚パターンをより適切に捕捉するニューラル ネットワークの基礎を築きます。
要約(オリジナル)
We propose a novel approach to image classification inspired by complex nonlinear biological visual processing, whereby classical convolutional neural networks (CNNs) are equipped with learnable higher-order convolutions. Our model incorporates a Volterra-like expansion of the convolution operator, capturing multiplicative interactions akin to those observed in early and advanced stages of biological visual processing. We evaluated this approach on synthetic datasets by measuring sensitivity to testing higher-order correlations and performance in standard benchmarks (MNIST, FashionMNIST, CIFAR10, CIFAR100 and Imagenette). Our architecture outperforms traditional CNN baselines, and achieves optimal performance with expansions up to 3rd/4th order, aligning remarkably well with the distribution of pixel intensities in natural images. Through systematic perturbation analysis, we validate this alignment by isolating the contributions of specific image statistics to model performance, demonstrating how different orders of convolution process distinct aspects of visual information. Furthermore, Representational Similarity Analysis reveals distinct geometries across network layers, indicating qualitatively different modes of visual information processing. Our work bridges neuroscience and deep learning, offering a path towards more effective, biologically inspired computer vision models. It provides insights into visual information processing and lays the groundwork for neural networks that better capture complex visual patterns, particularly in resource-constrained scenarios.
arxiv情報
著者 | Simone Azeglio,Olivier Marre,Peter Neri,Ulisse Ferrari |
発行日 | 2024-12-09 18:33:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google