要約
現代の畳み込みニューラルネットワークは、画像中のすべての画素に対して同じ演算を適用する。しかし、すべての画像領域が同じように重要なわけではありません。この非効率性を解決するために、我々は入力画像を条件として動的に畳み込み演算を適用する方法を提案する。我々は、小さなゲーティングブランチがどの空間位置が評価されるべきかを学習する残差ブロックを導入する。これらの離散的なゲーティングの決定は、スパース性基準との組み合わせで、ガンベル-ソフトマクストリックを用いてエンドツーエンドで学習される。CIFAR、ImageNet、MPIIを用いた実験により、本手法は既存の手法よりも低い計算量で、関心領域への集中力と精度に優れていることが示された。さらに、ギャザースキャッターアプローチを用いた我々の動的畳み込みの効率的なCUDA実装を提供し、MobileNetV2残差ブロックを用いた推論速度の大幅な改善を達成することができる。本質的に空間的に疎なタスクである人間の姿勢推定において、精度を落とさずに処理速度を60%向上させることができました。
要約(オリジナル)
Modern convolutional neural networks apply the same operations on every pixel in an image. However, not all image regions are equally important. To address this inefficiency, we propose a method to dynamically apply convolutions conditioned on the input image. We introduce a residual block where a small gating branch learns which spatial positions should be evaluated. These discrete gating decisions are trained end-to-end using the Gumbel-Softmax trick, in combination with a sparsity criterion. Our experiments on CIFAR, ImageNet and MPII show that our method has better focus on the region of interest and better accuracy than existing methods, at a lower computational complexity. Moreover, we provide an efficient CUDA implementation of our dynamic convolutions using a gather-scatter approach, achieving a significant improvement in inference speed with MobileNetV2 residual blocks. On human pose estimation, a task that is inherently spatially sparse, the processing speed is increased by 60% with no loss in accuracy.
arxiv情報
| 著者 | Thomas Verelst,Tinne Tuytelaars |
| 発行日 | 2022-08-05 15:59:50+00:00 |
| arxivサイト | arxiv_id(pdf) |