Hybrid Gromov-Wasserstein Embedding for Capsule Learning

要約

カプセル ネットワーク (CapsNets) は、部分全体の変換と階層コンポーネントのルーティングを含む 2 段階のプロセスを使用して、画像をオブジェクト、部分、およびそれらの関係の階層に解析することを目的としています。
ただし、この階層関係モデリングは計算コストが高く、潜在的な利点があるにもかかわらず、CapsNet の広範な使用が制限されています。
CapsNet モデルの現状は主にそのパフォーマンスをカプセル ベースラインと比較することに重点が置かれており、複雑なタスクにおいてディープ CNN バリアントと同じレベルの習熟度を達成するには至っていません。
この制限に対処するために、正規のベースライン モデルを超え、高性能の畳み込みモデルと比較して優れたパフォーマンスを示す、カプ​​セルを学習するための効率的なアプローチを紹介します。
私たちの貢献は 2 つの側面で概説できます。まず、入力ベクトルが投影されるサブカプセルのグループを導入します。
続いて、ハイブリッド Gromov-Wasserstein フレームワークを紹介します。このフレームワークは、最初に入力とサブカプセルによってモデル化されたコンポーネントの間の非類似性を定量化し、続いて最適な輸送を通じてそれらの整列度を決定します。
この革新的なメカニズムは、それぞれのコンポーネントの分布の類似性に基づいて、入力カプセルとサブカプセルの間の位置合わせを定義するための新しい洞察を利用しています。
このアプローチにより、解釈可能性と階層構造を維持しながら、複雑な高次元データから学習する CapsNet の能力が強化されます。
私たちが提案するモデルには、次の 2 つの明確な利点があります。(i) その軽量な性質により、物体検出を含む、より複雑な視覚タスクへのカプセルの適用が容易になります。
(ii) これらの要求の厳しいタスクにおいて、ベースラインのアプローチよりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Capsule networks (CapsNets) aim to parse images into a hierarchy of objects, parts, and their relations using a two-step process involving part-whole transformation and hierarchical component routing. However, this hierarchical relationship modeling is computationally expensive, which has limited the wider use of CapsNet despite its potential advantages. The current state of CapsNet models primarily focuses on comparing their performance with capsule baselines, falling short of achieving the same level of proficiency as deep CNN variants in intricate tasks. To address this limitation, we present an efficient approach for learning capsules that surpasses canonical baseline models and even demonstrates superior performance compared to high-performing convolution models. Our contribution can be outlined in two aspects: firstly, we introduce a group of subcapsules onto which an input vector is projected. Subsequently, we present the Hybrid Gromov-Wasserstein framework, which initially quantifies the dissimilarity between the input and the components modeled by the subcapsules, followed by determining their alignment degree through optimal transport. This innovative mechanism capitalizes on new insights into defining alignment between the input and subcapsules, based on the similarity of their respective component distributions. This approach enhances CapsNets’ capacity to learn from intricate, high-dimensional data while retaining their interpretability and hierarchical structure. Our proposed model offers two distinct advantages: (i) its lightweight nature facilitates the application of capsules to more intricate vision tasks, including object detection; (ii) it outperforms baseline approaches in these demanding tasks.

arxiv情報

著者 Pourya Shamsolmoali,Masoumeh Zareapoor,Swagatam Das,Eric Granger,Salvador Garcia
発行日 2023-10-24 11:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク