Revisiting Data Augmentation for Rotational Invariance in Convolutional Neural Networks

要約

畳み込みニューラル ネットワーク (CNN) は、さまざまなコンピューター ビジョン タスクにおいて最先端のパフォーマンスを提供します。
これらのタスクの多くは、画像変換に対してさまざまなサブタイプのアフィン不変性 (スケール、回転、並進) を必要とします。
畳み込み層は設計により変換等変ですが、その基本的な形式には不変性がありません。
この研究では、画像分類のために CNN に回転不変性を含める最適な方法を調査します。
私たちの実験では、データ拡張のみでトレーニングされたネットワークは、回転されていない通常の場合とほぼ同じように回転された画像を分類できることが示されました。
この表現力の向上は、トレーニング時間を犠牲にしてのみ実現します。
また、データ拡張と、回転不変性または等変性を達成するための 2 つの修正 CNN モデル、空間変換ネットワークおよびグループ等変 CNN を比較しましたが、これらの特殊な方法では精度が大幅に向上しないことがわかりました。
データ拡張ネットワークの場合、ネットワークが回転不変性をエンコードするのにどの層が役立つかについても分析します。これは、ネットワークの限界と、回転に対する不変性を達成するためにデータ拡張を使用してネットワークを最適に再トレーニングする方法を理解するために重要です。

要約(オリジナル)

Convolutional Neural Networks (CNN) offer state of the art performance in various computer vision tasks. Many of those tasks require different subtypes of affine invariances (scale, rotational, translational) to image transformations. Convolutional layers are translation equivariant by design, but in their basic form lack invariances. In this work we investigate how best to include rotational invariance in a CNN for image classification. Our experiments show that networks trained with data augmentation alone can classify rotated images nearly as well as in the normal unrotated case; this increase in representational power comes only at the cost of training time. We also compare data augmentation versus two modified CNN models for achieving rotational invariance or equivariance, Spatial Transformer Networks and Group Equivariant CNNs, finding no significant accuracy increase with these specialized methods. In the case of data augmented networks, we also analyze which layers help the network to encode the rotational invariance, which is important for understanding its limitations and how to best retrain a network with data augmentation to achieve invariance to rotation.

arxiv情報

著者 Facundo Manuel Quiroga,Franco Ronchetti,Laura Lanzarini,Aurelio Fernandez-Bariviera
発行日 2023-10-12 15:53:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.NE, I.2.10 パーマリンク