要約
視覚アプリケーションにおいて、よりコンテキストを意識したニューラル ネットワークを実現するために、より大きな受容野を使用するという最近の傾向に動機付けられ、私たちは、これらの受容野が実際にどの程度の大きさである必要があるかを調査することを目的としています。
このような研究を促進するには、いくつかの課題に対処する必要がありますが、最も重要なことは次のとおりです。(i) トレーニングまたは推論中にメモリ消費を増やすことなく、モデルが大規模なフィルター (入力データと同じ大きさになる可能性がある) を学習するための効果的な方法を提供する必要があります。
(ii) フィルタ サイズの検討は、ネットワーク幅や学習可能なパラメータの数などの他の影響から切り離す必要があります。(iii) 使用する畳み込み演算は、従来の畳み込みを置き換えることができるプラグ アンド プレイ モジュールである必要があります。
畳み込みニューラル ネットワーク (CNN) を利用し、現在のフレームワークでの効率的な実装を可能にします。
このようなモデルを容易にするために、フィルター重みの空間表現ではなく周波数表現をニューラル暗黙関数として学習することを提案します。これにより、無限に大きなフィルターであっても、少数の学習可能な重みだけでパラメーター化できるようになります。
結果として得られるニューラル暗黙的周波数 CNN は、周波数領域のみで畳み込みを実行しながら、大規模画像分類ベンチマークで最先端の結果と同等の結果を達成した最初のモデルであり、あらゆる CNN アーキテクチャ内で使用できます。
これらにより、学習された受容野の広範な分析が可能になります。
興味深いことに、私たちの分析は、提案されたネットワークが非常に大きな畳み込みカーネルを学習できるにもかかわらず、学習されたフィルターが実際には空間領域でよく局所化された比較的小さな畳み込みカーネルに変換されることを示しています。
要約(オリジナル)
Motivated by the recent trend towards the usage of larger receptive fields for more context-aware neural networks in vision applications, we aim to investigate how large these receptive fields really need to be. To facilitate such study, several challenges need to be addressed, most importantly: (i) We need to provide an effective way for models to learn large filters (potentially as large as the input data) without increasing their memory consumption during training or inference, (ii) the study of filter sizes has to be decoupled from other effects such as the network width or number of learnable parameters, and (iii) the employed convolution operation should be a plug-and-play module that can replace any conventional convolution in a Convolutional Neural Network (CNN) and allow for an efficient implementation in current frameworks. To facilitate such models, we propose to learn not spatial but frequency representations of filter weights as neural implicit functions, such that even infinitely large filters can be parameterized by only a few learnable weights. The resulting neural implicit frequency CNNs are the first models to achieve results on par with the state-of-the-art on large image classification benchmarks while executing convolutions solely in the frequency domain and can be employed within any CNN architecture. They allow us to provide an extensive analysis of the learned receptive fields. Interestingly, our analysis shows that, although the proposed networks could learn very large convolution kernels, the learned filters practically translate into well-localized and relatively small convolution kernels in the spatial domain.
arxiv情報
著者 | Julia Grabinski,Janis Keuper,Margret Keuper |
発行日 | 2023-07-19 14:21:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google