CoordGate: Efficiently Computing Spatially-Varying Convolutions in Convolutional Neural Networks

要約

光学イメージング システムは、静的でありながら空間的に変化する畳み込みを画像に適用する点像分布関数 (PSF) により、本質的に解像度が制限されます。
この劣化は、畳み込みニューラル ネットワーク (CNN)、特にぼけ除去技術を通じて対処できます。
ただし、現在のソリューションは、空間的に変化する畳み込みを効率的に計算するには一定の制限に直面しています。
この論文では、CNN で空間的に変化する畳み込みの効率的な計算を可能にする乗算ゲートと座標エンコード ネットワークを使用する新しい軽量モジュールである CoordGate を提案します。
CoordGate を使用すると、フィルタの空間的位置に基づいてフィルタを選択的に増幅または減衰でき、ローカルに接続されたニューラル ネットワークのように効果的に動作します。
CoordGate ソリューションの有効性は、U-Net のコンテキスト内で実証され、画像のブレ除去という困難な問題に適用されます。
実験結果は、CoordGate が従来のアプローチよりも優れたパフォーマンスを示し、さまざまなコンピューター ビジョン アプリケーションにおける CNN に対して、より堅牢で空間認識型のソリューションを提供することを示しています。

要約(オリジナル)

Optical imaging systems are inherently limited in their resolution due to the point spread function (PSF), which applies a static, yet spatially-varying, convolution to the image. This degradation can be addressed via Convolutional Neural Networks (CNNs), particularly through deblurring techniques. However, current solutions face certain limitations in efficiently computing spatially-varying convolutions. In this paper we propose CoordGate, a novel lightweight module that uses a multiplicative gate and a coordinate encoding network to enable efficient computation of spatially-varying convolutions in CNNs. CoordGate allows for selective amplification or attenuation of filters based on their spatial position, effectively acting like a locally connected neural network. The effectiveness of the CoordGate solution is demonstrated within the context of U-Nets and applied to the challenging problem of image deblurring. The experimental results show that CoordGate outperforms conventional approaches, offering a more robust and spatially aware solution for CNNs in various computer vision applications.

arxiv情報

著者 Sunny Howard,Peter Norreys,Andreas Döpp
発行日 2024-01-09 17:13:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク