Scale generalisation properties of extended scale-covariant and scale-invariant Gaussian derivative networks on image datasets with spatial scaling variations

要約

この論文では、概念的拡張とアルゴリズム拡張の両方で補完された、スケール共変およびスケール不変ガウス導関数ネットワークのスケール一般化特性の詳細な分析を示します。
この目的のために、ガウス導関数ネットワークは、トレーニング データには存在しない、テスト データの係数 4 を超える空間スケーリング変動を伴う Fashion-MNIST および CIFAR-10 データセットの新しい再スケーリング バージョンで評価されます。
さらに、以前に存在した STIR データセットの評価では、ガウス導関数ネットワークが、他のタイプのディープ ネットワークのこれらのデータセットについて以前に報告されたものよりも優れたスケールの一般化を達成していることが示されています。
まず、ガウス導関数ネットワークが新しいデータセットに対して非常に優れたスケール一般化特性を備えていること、およびスケール全体にわたる特徴応答の平均プーリングが、以前に使用されていたスケール全体にわたる最大プーリングのアプローチよりも優れた結果をもたらす可能性があることを実験的に実証します。
次に、最終層の後に空間最大プーリング メカニズムを使用すると、スケール汎化プロパティを維持しながら、画像領域内の中心にないオブジェクトの位置特定が可能になることを示します。
また、スケール チャネル ドロップアウトと呼ばれる、スケール チャネル全体にドロップアウトを適用することによるトレーニング中の正則化により、パフォーマンスとスケールの汎化の両方が向上することも示します。
追加のアブレーション研究では、中心差分演算子と組み合わせたガウス カーネルの離散アナログに基づくガウス微分ネットワークの離散化が、ガウス微分カーネルの他の離散近似のセットと比較して最高または最高のパフォーマンスを発揮することを実証しました。

最後に、活性化マップと学習された受容野を視覚化することで、ガウス導関数ネットワークが非常に優れた説明可能性を備えていることを実証します。

要約(オリジナル)

This paper presents an in-depth analysis of the scale generalisation properties of the scale-covariant and scale-invariant Gaussian derivative networks, complemented with both conceptual and algorithmic extensions. For this purpose, Gaussian derivative networks are evaluated on new rescaled versions of the Fashion-MNIST and the CIFAR-10 datasets, with spatial scaling variations over a factor of 4 in the testing data, that are not present in the training data. Additionally, evaluations on the previously existing STIR datasets show that the Gaussian derivative networks achieve better scale generalisation than previously reported for these datasets for other types of deep networks. We first experimentally demonstrate that the Gaussian derivative networks have quite good scale generalisation properties on the new datasets, and that average pooling of feature responses over scales may sometimes also lead to better results than the previously used approach of max pooling over scales. Then, we demonstrate that using a spatial max pooling mechanism after the final layer enables localisation of non-centred objects in image domain, with maintained scale generalisation properties. We also show that regularisation during training, by applying dropout across the scale channels, referred to as scale-channel dropout, improves both the performance and the scale generalisation. In additional ablation studies, we demonstrate that discretisations of Gaussian derivative networks, based on the discrete analogue of the Gaussian kernel in combination with central difference operators, perform best or among the best, compared to a set of other discrete approximations of the Gaussian derivative kernels. Finally, by visualising the activation maps and the learned receptive fields, we demonstrate that the Gaussian derivative networks have very good explainability properties.

arxiv情報

著者 Andrzej Perzanowski,Tony Lindeberg
発行日 2024-09-17 12:51:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク