Learning Partial Equivariances from Data

要約

グループ畳み込みニューラル ネットワーク (G-CNN) は、選択したグループの対称性を尊重するように学習した特徴を制約し、これらの対称性がデータに現れると、より良い一般化につながります。
ただし、これが当てはまらない場合、等分散性によってモデルが過度に制約され、パフォーマンスが低下します。
多くの場合、データで発生する変換は、グループ全体よりもグループのサブセットで表す方が適切です。たとえば、$[-90^{\circ}, 90^{\circ}]$ の回転です。
このような場合、データを表現するには、等分散 $\textit{partially}$ を尊重するモデルが適しています。
さらに、関連する変換は、低レベル機能と高レベル機能で異なる場合があります。
たとえば、完全回転等分散は顔のエッジの向きを記述するのに役立ちますが、部分回転等分散はカメラに対する顔の姿勢を記述するのにより適しています。
つまり、最適な等分散レベルはレイヤーごとに異なる場合があります。
この作業では、$\textit{Partial G-CNNs}$ を導入します: G-CNNs は、トレーニングの一環として、離散、連続グループ、およびそれらの組み合わせに対する部分的および完全な等分散のレイヤーごとのレベルを学習できます。
部分的な G-CNN は、回転した MNIST などの有益な場合は完全な等分散性を保持しますが、6/9 桁または自然画像の分類など、有害になるたびに調整します。
完全な等分散性が有利な場合、部分 G-CNN は G-CNN をペアにし、それ以外の場合はそれらよりも優れていることを経験的に示しています。

要約(オリジナル)

Group Convolutional Neural Networks (G-CNNs) constrain learned features to respect the symmetries in the selected group, and lead to better generalization when these symmetries appear in the data. If this is not the case, however, equivariance leads to overly constrained models and worse performance. Frequently, transformations occurring in data can be better represented by a subset of a group than by a group as a whole, e.g., rotations in $[-90^{\circ}, 90^{\circ}]$. In such cases, a model that respects equivariance $\textit{partially}$ is better suited to represent the data. In addition, relevant transformations may differ for low and high-level features. For instance, full rotation equivariance is useful to describe edge orientations in a face, but partial rotation equivariance is better suited to describe face poses relative to the camera. In other words, the optimal level of equivariance may differ per layer. In this work, we introduce $\textit{Partial G-CNNs}$: G-CNNs able to learn layer-wise levels of partial and full equivariance to discrete, continuous groups and combinations thereof as part of training. Partial G-CNNs retain full equivariance when beneficial, e.g., for rotated MNIST, but adjust it whenever it becomes harmful, e.g., for classification of 6 / 9 digits or natural images. We empirically show that partial G-CNNs pair G-CNNs when full equivariance is advantageous, and outperform them otherwise.

arxiv情報

著者 David W. Romero,Suhas Lohit
発行日 2022-10-25 14:48:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク