要約
動的コンボリューションは、サンプル依存のアテンションで重み付けされた $n$ 静的カーネルの線形混合を学習し、通常のコンボリューションと比較して優れたパフォーマンスを示します。
しかし、既存の設計はパラメータ効率が悪く、畳み込みパラメータの数が $n$ 倍増加します。
このことと最適化の難しさにより、動的畳み込みでは、パフォーマンスを向上させるために $n$ の非常に大きな値 (例: 一般的な設定 $n<10$ の代わりに $n>100$) を使用できるような研究の進歩が見られません。
境界。
この論文では、動的畳み込みのより一般的な形式である $KernelWarehouse$ を提案します。これは、パラメーターの効率と表現力の間で有利なトレードオフを実現できます。
その重要なアイデアは、カーネルの次元を削減し、カーネル数を大幅に増やすという観点から、動的畳み込みにおける ‘$kernels$’ と ‘$assembling$ $kernels$’ の基本概念を再定義することです。
原則として、KernelWarehouse は、巧妙なカーネル パーティションとウェアハウス共有を通じて、同じレイヤー内および連続するレイヤー間の畳み込みパラメータの依存関係を強化し、必要なパラメータ バジェットに適合する高い自由度を実現します。
さまざまな ConvNet アーキテクチャを使用して ImageNet および MS-COCO データセットでメソッドを検証し、最先端の結果が得られることを示します。
たとえば、ImageNet 上の KernelWarehouse でトレーニングされた ResNet18|ResNet50|MobileNetV2|ConvNeXt-Tiny モデルは、76.05%|81.05%|75.52%|82.51% のトップ 1 精度に達します。
柔軟な設計のおかげで、KernelWarehouse は精度を向上させながら ConvNet のモデル サイズを縮小することもできます。たとえば、ベースラインに対して 36.45%|65.10% パラメーターを削減した ResNet18 モデルは、トップ 1 の精度に対して 2.89%|2.29% の絶対的な向上を示しています。
。
要約(オリジナル)
Dynamic convolution learns a linear mixture of $n$ static kernels weighted with their sample-dependent attentions, demonstrating superior performance compared to normal convolution. However, existing designs are parameter-inefficient: they increase the number of convolutional parameters by $n$ times. This and the optimization difficulty lead to no research progress in dynamic convolution that can allow us to use a significant large value of $n$ (e.g., $n>100$ instead of typical setting $n<10$) to push forward the performance boundary. In this paper, we propose $KernelWarehouse$, a more general form of dynamic convolution, which can strike a favorable trade-off between parameter efficiency and representation power. Its key idea is to redefine the basic concepts of '$kernels$' and '$assembling$ $kernels$' in dynamic convolution from the perspective of reducing kernel dimension and increasing kernel number significantly. In principle, KernelWarehouse enhances convolutional parameter dependencies within the same layer and across successive layers via tactful kernel partition and warehouse sharing, yielding a high degree of freedom to fit a desired parameter budget. We validate our method on ImageNet and MS-COCO datasets with different ConvNet architectures, and show that it attains state-of-the-art results. For instance, the ResNet18|ResNet50|MobileNetV2|ConvNeXt-Tiny model trained with KernelWarehouse on ImageNet reaches 76.05%|81.05%|75.52%|82.51% top-1 accuracy. Thanks to its flexible design, KernelWarehouse can even reduce the model size of a ConvNet while improving the accuracy, e.g., our ResNet18 model with 36.45%|65.10% parameter reduction to the baseline shows 2.89%|2.29% absolute improvement to top-1 accuracy.
arxiv情報
著者 | Chao Li,Anbang Yao |
発行日 | 2023-08-16 13:35:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google