VN-Transformer: Rotation-Equivariant Attention for Vector Neurons

要約

回転の等分散性は、モーション予測や 3D 認識などの多くの実用的なアプリケーションで望ましい特性であり、サンプル効率、一般化の向上、入力摂動に対するロバスト性などの利点を提供できます。
Vector Neurons (VN) は最近開発されたフレームワークで、1 次元のスカラー ニューロンを 3 次元の「ベクター ニューロン」に拡張することにより、標準的な機械学習操作の回転同変類似物を導出するためのシンプルかつ効果的なアプローチを提供します。
現在の VN モデルのいくつかの欠点に対処するために、新しい「VN-Transformer」アーキテクチャを紹介します。
私たちの貢献は次のとおりです: $(i)$ 元の Vector Neurons モデルで必要とされる重い特徴の前処理の必要性を排除する、回転等価アテンション メカニズムを導き出します。
$(ii)$ VN フレームワークを拡張して非空間属性をサポートし、これらのモデルの適用性を現実世界のデータセットに拡張します。
$(iii)$ 点群の解像度をマルチスケールで縮小するための回転等価メカニズムを導出し、推論とトレーニングを大幅に高速化します。
$(iv)$ 等分散の小さなトレードオフ ($\epsilon$-近似等分散) を使用して、高速化されたハードウェアで数値安定性とトレーニングの堅牢性を大幅に改善できることを示し、モデル内の等分散違反の伝播を制限しました。
最後に、VN-Transformer を 3D 形状分類とモーション予測に適用して、説得力のある結果を出します。

要約(オリジナル)

Rotation equivariance is a desirable property in many practical applications such as motion forecasting and 3D perception, where it can offer benefits like sample efficiency, better generalization, and robustness to input perturbations. Vector Neurons (VN) is a recently developed framework offering a simple yet effective approach for deriving rotation-equivariant analogs of standard machine learning operations by extending one-dimensional scalar neurons to three-dimensional ‘vector neurons.’ We introduce a novel ‘VN-Transformer’ architecture to address several shortcomings of the current VN models. Our contributions are: $(i)$ we derive a rotation-equivariant attention mechanism which eliminates the need for the heavy feature preprocessing required by the original Vector Neurons models; $(ii)$ we extend the VN framework to support non-spatial attributes, expanding the applicability of these models to real-world datasets; $(iii)$ we derive a rotation-equivariant mechanism for multi-scale reduction of point-cloud resolution, greatly speeding up inference and training; $(iv)$ we show that small tradeoffs in equivariance ($\epsilon$-approximate equivariance) can be used to obtain large improvements in numerical stability and training robustness on accelerated hardware, and we bound the propagation of equivariance violations in our models. Finally, we apply our VN-Transformer to 3D shape classification and motion forecasting with compelling results.

arxiv情報

著者 Serge Assaad,Carlton Downey,Rami Al-Rfou,Nigamaa Nayakanti,Ben Sapp
発行日 2023-01-24 20:27:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク