要約
この人工知能の時代では、畳み込みニューラル ネットワーク (CNN) のようなディープ ニューラル ネットワークが最有力候補として台頭しており、しばしば人間の能力を超えています。
これらの深いネットワークは、多くの場合、あらゆる課題を解決する万能薬として認識されています。
残念ながら、これらのネットワークの共通の欠点は、生物学的な神経システムの動作を必ずしも反映していない「ブラックボックス」特性です。
一部には数百万または数十億の学習可能 (調整可能) パラメーターがあり、そのトレーニングには膨大なデータと時間が必要です。
ここでは、生物学的ニューロンの原理を CNN の特定の層に統合します。
具体的には、神経科学にヒントを得た外側膝状核(LGN)と一次視覚野の単純な細胞の計算モデルの使用を調査します。
このようなモデルを活用することで、CNN への入力として使用する画像の特徴を抽出し、トレーニングの効率を高め、より高い精度を達成することを目指しています。
私たちは、CNN の基礎層として単純な細胞の受容野のプッシュプル結合 (PP-CORF) モデルを使用して浅いネットワークを実現し、学習プロセスとパフォーマンスを強化することを目指しています。
これを達成するために、私たちは 2 つのタワー CNN を提案します。1 つは浅いタワー、もう 1 つは ResNet 18 です。特徴を盲目的に抽出するのではなく、脳が特徴を認識して抽出する方法を模倣しようとします。
提案されたシステムは、ResNet-18 と比較して、CIFAR-10、CIFAR-100、および ImageNet-100 データセットでのパフォーマンスの顕著な向上 (平均 $5\%-10\%$) を示します。
また、ネットワークのプッシュプル タワーのみの効率もチェックします。
要約(オリジナル)
In this era of artificial intelligence, deep neural networks like Convolutional Neural Networks (CNNs) have emerged as front-runners, often surpassing human capabilities. These deep networks are often perceived as the panacea for all challenges. Unfortunately, a common downside of these networks is their ”black-box” character, which does not necessarily mirror the operation of biological neural systems. Some even have millions/billions of learnable (tunable) parameters, and their training demands extensive data and time. Here, we integrate the principles of biological neurons in certain layer(s) of CNNs. Specifically, we explore the use of neuro-science-inspired computational models of the Lateral Geniculate Nucleus (LGN) and simple cells of the primary visual cortex. By leveraging such models, we aim to extract image features to use as input to CNNs, hoping to enhance training efficiency and achieve better accuracy. We aspire to enable shallow networks with a Push-Pull Combination of Receptive Fields (PP-CORF) model of simple cells as the foundation layer of CNNs to enhance their learning process and performance. To achieve this, we propose a two-tower CNN, one shallow tower and the other as ResNet 18. Rather than extracting the features blindly, it seeks to mimic how the brain perceives and extracts features. The proposed system exhibits a noticeable improvement in the performance (on an average of $5\%-10\%$) on CIFAR-10, CIFAR-100, and ImageNet-100 datasets compared to ResNet-18. We also check the efficiency of only the Push-Pull tower of the network.
arxiv情報
著者 | Neeraj Kumar Singh,Nikhil R. Pal |
発行日 | 2023-11-14 16:58:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google