EquiCaps: Predictor-Free Pose-Aware Pre-Trained Capsule Networks

要約

変換と不変で等しくなる自己監視表現を学ぶことは、従来の視覚分類タスクを超えて進歩するために重要です。
ただし、多くの方法は、カプセルネットワークなどのアーキテクチャの選択が解釈可能なポーズアウェア表現の学習に本質的に優れているという証拠にもかかわらず、予測因子アーキテクチャに依存して等量をエンコードしています。
これを探索するために、等量を実施するための専門的な予測因子の必要性を排除するポーズ認識のセルフスーパービジョンへのカプセルベースのアプローチであるEquiCaps(Equivariant Capsule Network)を紹介します。
代わりに、カプセルの固有のポーズアウェアネス機能を活用して、ポーズ推定タスクのパフォーマンスを改善します。
私たちの仮定にさらに挑戦するために、3Dオブジェクトレンダリングベンチマークデータセットの拡張である3DieBench-Tを導入することにより、不変性と等量のより徹底的な評価を可能にするために、多幾何変換を介してタスクの複雑さを高めます。
経験的な結果は、Equicapsが回転予測で以前の最先端の等量的方法を上回り、3Diebench Rotation Prodiction Benchmarkで監視されたレベルの$ r^2 $ of 0.78を達成し、それぞれ0.05および0.04 $ r^2 $のSIEとCapsieを改善することを示しています。
さらに、非カプセルベースの等量アプローチとは対照的に、equicapsは、幾何学的変換の組み合わせの下で堅牢な等縁パフォーマンスを維持し、その一般化能力と予測なしのカプセルアーキテクチャの約束を強調します。

要約(オリジナル)

Learning self-supervised representations that are invariant and equivariant to transformations is crucial for advancing beyond traditional visual classification tasks. However, many methods rely on predictor architectures to encode equivariance, despite evidence that architectural choices, such as capsule networks, inherently excel at learning interpretable pose-aware representations. To explore this, we introduce EquiCaps (Equivariant Capsule Network), a capsule-based approach to pose-aware self-supervision that eliminates the need for a specialised predictor for enforcing equivariance. Instead, we leverage the intrinsic pose-awareness capabilities of capsules to improve performance in pose estimation tasks. To further challenge our assumptions, we increase task complexity via multi-geometric transformations to enable a more thorough evaluation of invariance and equivariance by introducing 3DIEBench-T, an extension of a 3D object-rendering benchmark dataset. Empirical results demonstrate that EquiCaps outperforms prior state-of-the-art equivariant methods on rotation prediction, achieving a supervised-level $R^2$ of 0.78 on the 3DIEBench rotation prediction benchmark and improving upon SIE and CapsIE by 0.05 and 0.04 $R^2$, respectively. Moreover, in contrast to non-capsule-based equivariant approaches, EquiCaps maintains robust equivariant performance under combined geometric transformations, underscoring its generalisation capabilities and the promise of predictor-free capsule architectures.

arxiv情報

著者 Athinoulla Konstantinou,Georgios Leontidis,Mamatha Thota,Aiden Durrant
発行日 2025-06-11 16:07:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク