RefConv: Re-parameterized Refocusing Convolution for Powerful ConvNets

要約

通常の畳み込み層の代わりに、推論コストをかけずにパフォーマンスを向上させるプラグアンドプレイ モジュールである再パラメータ化リフォーカス畳み込み (RefConv) を提案します。
具体的には、事前トレーニングされたモデルが与えられると、RefConv はトレーニング可能なリフォーカス変換を事前トレーニングされたモデルから継承した基本カーネルに適用して、パラメーター間の接続を確立します。
たとえば、深さ方向の RefConv は、コンボリューション カーネルの特定のチャネルのパラメータを他のカーネルのパラメータに関連付けることができます。つまり、モデルに焦点を当てるのではなく、これまで注目したことのないモデルの他の部分に再度焦点を当てることができます。
入力機能のみ。
別の観点から見ると、RefConv は、事前トレーニングされたパラメーターにエンコードされた表現を事前分布として利用し、それらに再焦点を当てて新しい表現を学習することにより、既存のモデル構造の事前分布を拡張します。これにより、事前トレーニングされたモデルの表現能力がさらに強化されます。
実験結果では、余分な推論コストを導入したり元のモデル構造を変更したりすることなく、RefConv が画像分類 (ImageNet でトップ 1 の精度が最大 1.47% 高い)、オブジェクト検出、セマンティック セグメンテーションにおいて明確なマージンで複数の CNN ベースのモデルを改善できることが検証されました。

さらなる研究では、RefConv がチャネルの冗長性を減らし、損失状況を平滑化できることが実証され、これがその有効性を説明しています。

要約(オリジナル)

We propose Re-parameterized Refocusing Convolution (RefConv) as a replacement for regular convolutional layers, which is a plug-and-play module to improve the performance without any inference costs. Specifically, given a pre-trained model, RefConv applies a trainable Refocusing Transformation to the basis kernels inherited from the pre-trained model to establish connections among the parameters. For example, a depth-wise RefConv can relate the parameters of a specific channel of convolution kernel to the parameters of the other kernel, i.e., make them refocus on the other parts of the model they have never attended to, rather than focus on the input features only. From another perspective, RefConv augments the priors of existing model structures by utilizing the representations encoded in the pre-trained parameters as the priors and refocusing on them to learn novel representations, thus further enhancing the representational capacity of the pre-trained model. Experimental results validated that RefConv can improve multiple CNN-based models by a clear margin on image classification (up to 1.47% higher top-1 accuracy on ImageNet), object detection and semantic segmentation without introducing any extra inference costs or altering the original model structure. Further studies demonstrated that RefConv can reduce the redundancy of channels and smooth the loss landscape, which explains its effectiveness.

arxiv情報

著者 Zhicheng Cai,Xiaohan Ding,Qiu Shen,Xun Cao
発行日 2023-10-16 16:36:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク