要約
最新のマシン ビジョン モデルの基本的な操作として、特徴のアップサンプリングは広く使用されており、文献で調査されています。
理想的なアップサンプリング操作は、計算の複雑さが低く、軽量である必要があります。
つまり、全体的なパフォーマンスが向上するだけでなく、モデルの複雑さにも影響を与えません。
Content-aware Reassembly of features (CARAFE) は、機能のアップサンプリングを実現するための、適切に設計された学習可能な操作です。
この方法では、優れたパフォーマンスが達成されますが、大規模なカーネルを生成する必要があり、大量の余分な冗長パラメータが必要となり、本質的にスケーラビリティが制限されます。
この目的を達成するために、この文書では動的軽量アップサンプリング (DLU) と呼ばれる軽量アップサンプリング操作を提案します。
特に、最初に小規模なソース カーネル空間を構築し、次に学習可能なガイダンス オフセットを導入することでカーネル空間から大規模なカーネルをサンプリングします。これにより、アップサンプリングでの学習可能なパラメータの大規模なコレクションの導入が回避されます。
いくつかの主流のビジョンタスクに関する実験では、当社の DLU はオリジナルの CARAFE と同等かさらに優れたパフォーマンスを達成するが、複雑さははるかに低く、たとえば、DLU は CARAFE よりも必要なパラメータが 91% 少なく、FLOP (浮動小数点演算) が少なくとも 63% 少ないことが示されています。
16x アップサンプリングの場合ですが、物体検出では CARAFE よりも 0.3% mAP 優れています。
コードは https://github.com/Fu0511/Dynamic-Lightweight-Upsampling で入手できます。
要約(オリジナル)
As a fundamental operation in modern machine vision models, feature upsampling has been widely used and investigated in the literatures. An ideal upsampling operation should be lightweight, with low computational complexity. That is, it can not only improve the overall performance but also not affect the model complexity. Content-aware Reassembly of Features (CARAFE) is a well-designed learnable operation to achieve feature upsampling. Albeit encouraging performance achieved, this method requires generating large-scale kernels, which brings a mass of extra redundant parameters, and inherently has limited scalability. To this end, we propose a lightweight upsampling operation, termed Dynamic Lightweight Upsampling (DLU) in this paper. In particular, it first constructs a small-scale source kernel space, and then samples the large-scale kernels from the kernel space by introducing learnable guidance offsets, hence avoiding introducing a large collection of trainable parameters in upsampling. Experiments on several mainstream vision tasks show that our DLU achieves comparable and even better performance to the original CARAFE, but with much lower complexity, e.g., DLU requires 91% fewer parameters and at least 63% fewer FLOPs (Floating Point Operations) than CARAFE in the case of 16x upsampling, but outperforms the CARAFE by 0.3% mAP in object detection. Code is available at https://github.com/Fu0511/Dynamic-Lightweight-Upsampling.
arxiv情報
著者 | Ruigang Fu,Qingyong Hu,Xiaohu Dong,Yinghui Gao,Biao Li,Ping Zhong |
発行日 | 2024-10-29 15:35:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google