要約
カプセル ネットワーク (CapsNets) は、オブジェクト、パーツ、およびそれらの関係で構成される階層コンポーネント構造に画像を解析することを目的としています。
その可能性にもかかわらず、それらは計算コストが高く、大きな欠点をもたらします。これにより、これらのネットワークをより複雑なデータセットで効率的に利用することが制限されます。
現在の CapsNet モデルは、パフォーマンスをカプセルのベースラインと比較するだけであり、複雑なタスクでディープ CNN ベースのモデルと同じレベルで実行することはできません。
この論文では、入力ベクトルが投影されるサブカプセルのグループを通じて、入力画像の原子部分を検出するカプセルを学習するための効率的な方法を提案します。
続いて、入力と SubCapsules によってモデル化されたコンポーネントとの間の非類似性を最初に測定し、学習された最適な輸送に基づいてそれらの整列度を見つける、Wasserstein 埋め込みモジュールを紹介します。
この戦略は、それぞれのコンポーネント分布間の類似性に基づいて、入力とサブカプセル間のアライメントを定義する新しい洞察を活用します。
私たちが提案したモデル (i) は軽量で、より複雑なビジョン タスクにカプセルを適用できます。
(ii)これらの困難なタスクでCNNベースのモデルよりも優れているか、同等のパフォーマンスを発揮します。
私たちの実験結果は、Wasserstein Embedding Capsules (WECapsules) がアフィン変換でより堅牢に実行し、より大きなデータセットに効果的にスケールアップし、いくつかのビジョン タスクで CNN および CapsNet モデルよりも優れていることを示しています。
要約(オリジナル)
Capsule networks (CapsNets) aim to parse images into a hierarchical component structure that consists of objects, parts, and their relations. Despite their potential, they are computationally expensive and pose a major drawback, which limits utilizing these networks efficiently on more complex datasets. The current CapsNet models only compare their performance with the capsule baselines and do not perform at the same level as deep CNN-based models on complicated tasks. This paper proposes an efficient way for learning capsules that detect atomic parts of an input image, through a group of SubCapsules, upon which an input vector is projected. Subsequently, we present the Wasserstein Embedding Module that first measures the dissimilarity between the input and components modeled by the SubCapsules, and then finds their degree of alignment based on the learned optimal transport. This strategy leverages new insights on defining alignment between the input and SubCapsules based on the similarity between their respective component distributions. Our proposed model, (i) is lightweight and allows to apply capsules for more complex vision tasks; (ii) performs better than or at par with CNN-based models on these challenging tasks. Our experimental results indicate that Wasserstein Embedding Capsules (WECapsules) perform more robustly on affine transformations, effectively scale up to larger datasets, and outperform the CNN and CapsNet models in several vision tasks.
arxiv情報
著者 | Pourya Shamsolmoali,Masoumeh Zareapoor,Swagatam Das,Eric Granger,Salvador Garcia |
発行日 | 2022-09-01 05:26:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google