Why Capsule Neural Networks Do Not Scale: Challenging the Dynamic Parse-Tree Assumption

要約

カプセルニューラルネットワークは、スカラー値を持つ単純なニューロンを、ベクトル値を持つカプセルに置き換えたものである。カプセルニューラルネットワークは、人間の脳のパターン認識システムからヒントを得たもので、複雑な物体はより単純な物体の部分の階層に分解される。このような階層はパースツリーと呼ばれる。概念的には、このようなパースツリーを実現するために、カプセルニューラルネットワークが定義されている。Sabour、Frosst、Hintonによるカプセルニューラルネットワーク(CapsNet)は、カプセルニューラルネットワークの概念的な考えを実際に実装した最初のものである。カプセルネットは単純な画像認識タスクにおいて、同等のアプローチよりも少ないパラメータで、アフィン変換に対してより高い頑健性を持ち、最先端の性能を達成した。これをきっかけに、後続の研究が盛んに行われるようになりました。しかし、大きな努力にもかかわらず、CapsNetアーキテクチャをより合理的なサイズのデータセットに拡張することができた研究はなかった。本論文では、この失敗の理由を説明し、CapsNetsをおもちゃの例以上に拡張することは不可能である可能性が高いことを論じる。特に、カプセル神経回路網の主要な考え方である構文木の概念が、CapsNetsには存在しないことを明らかにする。また、CapsNetsは学習中に多くのカプセルが飢餓状態に陥るvanishing gradient問題に悩まされていることを理論的、実験的に明らかにする。

要約(オリジナル)

Capsule neural networks replace simple, scalar-valued neurons with vector-valued capsules. They are motivated by the pattern recognition system in the human brain, where complex objects are decomposed into a hierarchy of simpler object parts. Such a hierarchy is referred to as a parse-tree. Conceptually, capsule neural networks have been defined to realize such parse-trees. The capsule neural network (CapsNet), by Sabour, Frosst, and Hinton, is the first actual implementation of the conceptual idea of capsule neural networks. CapsNets achieved state-of-the-art performance on simple image recognition tasks with fewer parameters and greater robustness to affine transformations than comparable approaches. This sparked extensive follow-up research. However, despite major efforts, no work was able to scale the CapsNet architecture to more reasonable-sized datasets. Here, we provide a reason for this failure and argue that it is most likely not possible to scale CapsNets beyond toy examples. In particular, we show that the concept of a parse-tree, the main idea behind capsule neuronal networks, is not present in CapsNets. We also show theoretically and experimentally that CapsNets suffer from a vanishing gradient problem that results in the starvation of many capsules during training.

arxiv情報

著者 Matthias Mitterreiter,Marcel Koch,Joachim Giesen,Sören Laue
発行日 2023-01-04 12:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク