Learning with Capsules: A Survey

要約

カプセルネットワークは、物体中心の表現を学習するための畳み込みニューラルネットワーク(CNN)に代わるアプローチとして提案され、汎化性とサンプル複雑度の向上に活用できる。CNNとは異なり、カプセルネットワークは、ニューロン群を用いて視覚的実体を符号化し、それらの実体間の関係を学習することにより、部分-全体の階層的関係を明示的にモデル化するように設計されている。カプセルネットワークが達成した有望な初期結果は、深層学習コミュニティを動かし、いくつかの応用分野にわたってその性能とスケーラビリティを向上させる試みを続けている。しかし、カプセルネットワークの研究にとって大きなハードルは、その基礎となるアイデアや動機を理解するための信頼できる参照先がないことであった。この調査の目的は、カプセルネットワーク研究の包括的な概観を提供し、今後のコミュニティの貴重なリソースとすることである。そのために、まず、コンピュータビジョンにおける等変量推論など、カプセルネットワークの背後にある基本的な概念と動機の紹介から始めます。次に、カプセルルーティングのメカニズムにおける技術的な進歩と、カプセルネットワークの様々な定式化(例えば、生成的および幾何学的)をカバーする。さらに、カプセルネットワークがトランスフォーマーで人気のある注意メカニズムにどのように関連しているかを詳細に説明し、表現学習の文脈における両者の自明ではない概念的類似性を浮き彫りにする。その後、コンピュータビジョン、ビデオとモーション、グラフ表現学習、自然言語処理、医療画像処理、その他多くの分野でのカプセルネットワークの広範なアプリケーションを探求する。最後に、カプセルネットワーク研究における主なハードルに関する詳細な議論を提供し、今後の研究の有望な方向性を強調する。

要約(オリジナル)

Capsule networks were proposed as an alternative approach to Convolutional Neural Networks (CNNs) for learning object-centric representations, which can be leveraged for improved generalization and sample complexity. Unlike CNNs, capsule networks are designed to explicitly model part-whole hierarchical relationships by using groups of neurons to encode visual entities, and learn the relationships between those entities. Promising early results achieved by capsule networks have motivated the deep learning community to continue trying to improve their performance and scalability across several application areas. However, a major hurdle for capsule network research has been the lack of a reliable point of reference for understanding their foundational ideas and motivations. The aim of this survey is to provide a comprehensive overview of the capsule network research landscape, which will serve as a valuable resource for the community going forward. To that end, we start with an introduction to the fundamental concepts and motivations behind capsule networks, such as equivariant inference in computer vision. We then cover the technical advances in the capsule routing mechanisms and the various formulations of capsule networks, e.g. generative and geometric. Additionally, we provide a detailed explanation of how capsule networks relate to the popular attention mechanism in Transformers, and highlight non-trivial conceptual similarities between them in the context of representation learning. Afterwards, we explore the extensive applications of capsule networks in computer vision, video and motion, graph representation learning, natural language processing, medical imaging and many others. To conclude, we provide an in-depth discussion regarding the main hurdles in capsule network research, and highlight promising research directions for future work.

arxiv情報

著者 Fabio De Sousa Ribeiro,Kevin Duarte,Miles Everett,Georgios Leontidis,Mubarak Shah
発行日 2022-06-06 15:05:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク