要約
コンピューター ビジョンにおいて、2D 畳み込みはおそらく ConvNet によって実行される最も重要な操作です。
当然のことながら、これはソフトウェアとハードウェアの最適化に重点が置かれており、非常に効率的な実装が実現されています。
この研究では、2D 畳み込みなしで ConvNet を動作させることができるかという興味深い質問をします。
驚くべきことに、答えは「はい」であることが分かりました。完全に 1D 畳み込みから構成される ConvNet が、ImageNet 分類において 2D と同様に機能できることを示しました。
具体的には、高パフォーマンスの 1D ConvNet の重要な要素の 1 つは、指向性 1D カーネルであること、つまり水平または垂直だけでなく他の角度にも指向性のある 1D カーネルであることがわかりました。
私たちの実験では、指向性 1D 畳み込みが 2D 畳み込みを置き換えるだけでなく、既存のアーキテクチャを大規模なカーネルで拡張できるため、最小限の FLOP 増加で精度が向上することがわかりました。
この研究の主な貢献は、深さ方向の畳み込み設定に特化した、指向性 1D カーネルの高度に最適化されたカスタム CUDA 実装です。
私たちのベンチマークは、カスタム CUDA 実装が 1D 畳み込みの理論上の利点をほぼ完全に実現していることを示しています。つまり、任意の角度に対してネイティブの水平畳み込みよりも高速です。
コードは https://github.com/princeton-vl/Oriented1D で入手できます。
要約(オリジナル)
In computer vision, 2D convolution is arguably the most important operation performed by a ConvNet. Unsurprisingly, it has been the focus of intense software and hardware optimization and enjoys highly efficient implementations. In this work, we ask an intriguing question: can we make a ConvNet work without 2D convolutions? Surprisingly, we find that the answer is yes — we show that a ConvNet consisting entirely of 1D convolutions can do just as well as 2D on ImageNet classification. Specifically, we find that one key ingredient to a high-performing 1D ConvNet is oriented 1D kernels: 1D kernels that are oriented not just horizontally or vertically, but also at other angles. Our experiments show that oriented 1D convolutions can not only replace 2D convolutions but also augment existing architectures with large kernels, leading to improved accuracy with minimal FLOPs increase. A key contribution of this work is a highly-optimized custom CUDA implementation of oriented 1D kernels, specialized to the depthwise convolution setting. Our benchmarks demonstrate that our custom CUDA implementation almost perfectly realizes the theoretical advantage of 1D convolution: it is faster than a native horizontal convolution for any arbitrary angle. Code is available at https://github.com/princeton-vl/Oriented1D.
arxiv情報
著者 | Alexandre Kirchmeyer,Jia Deng |
発行日 | 2023-09-27 17:36:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google