Wasserstein Embedding for Capsule Learning


カプセル ネットワーク (CapsNets) は、オブジェクト、パーツ、およびそれらの関係で構成される階層コンポーネント構造に画像を解析することを目的としています。
現在の CapsNet モデルは、パフォーマンスをカプセルのベースラインと比較するだけであり、複雑なタスクでディープ CNN ベースのモデルと同じレベルで実行することはできません。
続いて、入力と SubCapsules によってモデル化されたコンポーネントとの間の非類似性を最初に測定し、学習された最適な輸送に基づいてそれらの整列度を見つける、Wasserstein 埋め込みモジュールを紹介します。
私たちが提案したモデル (i) は軽量で、より複雑なビジョン タスクにカプセルを適用できます。
私たちの実験結果は、Wasserstein Embedding Capsules (WECapsules) がアフィン変換でより堅牢に実行し、より大きなデータセットに効果的にスケールアップし、いくつかのビジョン タスクで CNN および CapsNet モデルよりも優れていることを示しています。


Capsule networks (CapsNets) aim to parse images into a hierarchical component structure that consists of objects, parts, and their relations. Despite their potential, they are computationally expensive and pose a major drawback, which limits utilizing these networks efficiently on more complex datasets. The current CapsNet models only compare their performance with the capsule baselines and do not perform at the same level as deep CNN-based models on complicated tasks. This paper proposes an efficient way for learning capsules that detect atomic parts of an input image, through a group of SubCapsules, upon which an input vector is projected. Subsequently, we present the Wasserstein Embedding Module that first measures the dissimilarity between the input and components modeled by the SubCapsules, and then finds their degree of alignment based on the learned optimal transport. This strategy leverages new insights on defining alignment between the input and SubCapsules based on the similarity between their respective component distributions. Our proposed model, (i) is lightweight and allows to apply capsules for more complex vision tasks; (ii) performs better than or at par with CNN-based models on these challenging tasks. Our experimental results indicate that Wasserstein Embedding Capsules (WECapsules) perform more robustly on affine transformations, effectively scale up to larger datasets, and outperform the CNN and CapsNet models in several vision tasks.


著者 Pourya Shamsolmoali,Masoumeh Zareapoor,Swagatam Das,Eric Granger,Salvador Garcia
発行日 2022-09-01 05:26:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク