Towards glass-box CNNs

要約

畳み込みニューラルネットワーク(CNN)は、視覚的に複雑なタスクの学習と再学習が可能なことから人気のある脳をモチーフにしたアーキテクチャである。しかし、CNNはブラックボックスとして扱われ、何度も試行錯誤を繰り返している。我々は、CNNが強力な内部表現を構築し、最先端の性能を達成することを観察している。本論文では、2クラス画像分類問題に対する3層のグラスボックス(分析的)CNNを提案する。まず、入力画像のクラス情報(群不変)と対称変換(群等変)の両方を包含する表現層がある。次に、次元削減層(PCA)に渡される。最後に、コンパクトでありながら完全な表現が分類器に提供される。感度を評価するために、分析的機械学習分類器と多層パーセプトロンが使用される。提案したGlass-Box CNNは、AlexNet (CNN)の内部表現の等変量と比較され、より良い理解と成果の普及のために利用されています。今後は、多クラス視覚的複雑タスクのためのGlass-box CNNを構築したい。

要約(オリジナル)

Convolution neural networks (CNNs) are brain-inspired architectures popular for their ability to train and relearn visually complex tasks. It is incremental and scalable; however, CNN is mostly treated as black-box and involves multiple trial & error runs. We observe that CNN constructs powerful internal representations that help achieve state-of-the-art performance. Here we propose three layer glass-box (analytical) CNN for two-class image classifcation problems. First is a representation layer that encompasses both the class information (group invariant) and symmetric transformations (group equivariant) of input images. It is then passed through dimension reduction layer (PCA). Finally the compact yet complete representation is provided to a classifer. Analytical machine learning classifers and multilayer perceptrons are used to assess sensitivity. Proposed glass-box CNN is compared with equivariance of AlexNet (CNN) internal representation for better understanding and dissemination of results. In future, we would like to construct glass-box CNN for multiclass visually complex tasks.

arxiv情報

著者 Piduguralla Manaswini,Jignesh S. Bhatt
発行日 2022-11-03 12:04:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク