Just a Matter of Scale? Reevaluating Scale Equivariance in Convolutional Neural Networks

要約

畳み込みニューラル ネットワークの広範な成功は、翻訳の等価性という固有の特性に大きく起因する可能性があります。
ただし、畳み込みはスケールの変動と同変ではなく、異なるサイズのオブジェクトに一般化できません。
この分野の最近の進歩にもかかわらず、現在の方法が実世界のデータの観測されていないスケールにどの程度一般化されているか、およびスケールの等価性がどの程度の役割を果たすかは不明のままです。
これに対処するために、4 つの異なるドメインに基づく新しいスケーリングおよび変換された画像認識 (STIR) ベンチマークを提案します。
さらに、重みを共有する再スケーリングされた多くのカーネルを並行して適用し、最も適切なものを選択するモデルの新しいファミリを導入します。
STIR に関する実験結果は、既存のアプローチと提案されたアプローチの両方が、標準的な畳み込みと比較して、スケール全体で一般化を改善できることを示しています。
また、モデルのファミリーがより大きなスケールに向かって一般化でき、スケールの等価性を改善できることも示しています。
さらに、独自の設計により、カーネルの選択が入力スケールと一致していることを検証できます。
それでも、評価されたモデルのいずれも、スケールの大きな違いに対してパフォーマンスを維持していません。これは、スケールの同等性が一般化とロバスト性をどのように改善できるかについての一般的な理解がまだ不足していることを示しています。

要約(オリジナル)

The widespread success of convolutional neural networks may largely be attributed to their intrinsic property of translation equivariance. However, convolutions are not equivariant to variations in scale and fail to generalize to objects of different sizes. Despite recent advances in this field, it remains unclear how well current methods generalize to unobserved scales on real-world data and to what extent scale equivariance plays a role. To address this, we propose the novel Scaled and Translated Image Recognition (STIR) benchmark based on four different domains. Additionally, we introduce a new family of models that applies many re-scaled kernels with shared weights in parallel and then selects the most appropriate one. Our experimental results on STIR show that both the existing and proposed approaches can improve generalization across scales compared to standard convolutions. We also demonstrate that our family of models is able to generalize well towards larger scales and improve scale equivariance. Moreover, due to their unique design we can validate that kernel selection is consistent with input scale. Even so, none of the evaluated models maintain their performance for large differences in scale, demonstrating that a general understanding of how scale equivariance can improve generalization and robustness is still lacking.

arxiv情報

著者 Thomas Altstidl,An Nguyen,Leo Schwinn,Franz Köferl,Christopher Mutschler,Björn Eskofier,Dario Zanca
発行日 2022-11-18 15:27:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク