Dilated Convolution with Learnable Spacings: beyond bilinear interpolation

要約

学習可能な間隔を備えた拡張畳み込み (DCLS) は、カーネル内の非ゼロ要素間の間隔、またはそれらの位置が学習可能である拡張畳み込みの最近提案されたバリエーションです。
非整数の位置は補間によって処理されます。
このトリックのおかげで、位置の勾配が明確に定義されます。
元の DCLS は双一次補間を使用していたので、最も近い 4 つのピクセルのみを考慮していました。
しかし、ここでは、より長い範囲の内挿、特にガウス内挿により、パラメーターの数を増やすことなく、2 つの最先端の畳み込みアーキテクチャ (ConvNeXt および Conv\-Former) での ImageNet1k 分類のパフォーマンスを向上できることを示します。
メソッド コードは PyTorch に基づいており、https://github.com/K-H-Ismail/Dirated-Convolution-with-Learnable-Spacings-PyTorch から入手できます。

要約(オリジナル)

Dilated Convolution with Learnable Spacings (DCLS) is a recently proposed variation of the dilated convolution in which the spacings between the non-zero elements in the kernel, or equivalently their positions, are learnable. Non-integer positions are handled via interpolation. Thanks to this trick, positions have well-defined gradients. The original DCLS used bilinear interpolation, and thus only considered the four nearest pixels. Yet here we show that longer range interpolations, and in particular a Gaussian interpolation, allow improving performance on ImageNet1k classification on two state-of-the-art convolutional architectures (ConvNeXt and Conv\-Former), without increasing the number of parameters. The method code is based on PyTorch and is available at https://github.com/K-H-Ismail/Dilated-Convolution-with-Learnable-Spacings-PyTorch

arxiv情報

著者 Ismail Khalfaoui-Hassani,Thomas Pellegrini,Timothée Masquelier
発行日 2023-06-01 15:42:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク