要約
ネットワーク量子化により、低精度の演算を使用して推論を実行できるようになり、エッジ デバイス上のディープ ニューラル ネットワークの推論効率が向上します。
ただし、物体検出などの複雑なタスクで積極的に低ビット (2 ビットなど) の量子化スキームを設計することは、深刻なパフォーマンスの低下と一般的なハードウェアでの検証できない効率の点で依然として困難です。
この論文では、浮動小数点計算を完全に排除する、AQD と呼ばれる正確な量子化オブジェクト検出ソリューションを提案します。
この目的を達成するために、畳み込み層、正規化層、スキップ接続を含むあらゆる種類の層で固定小数点演算を使用し、整数のみの算術を使用して推論を実行できるようにすることを目標としています。
待ち時間と精度のトレードオフの改善を実証するために、提案された方法を RetinaNet と FCOS に適用します。
特に、MS-COCO データセットの実験結果は、当社の AQD が極度の低ビット スキーム下で完全精度の対応物と比較して同等またはそれ以上のパフォーマンスを達成することを示しており、これは非常に実用的価値があります。
ソース コードとモデルは、https://github.com/ziplab/QTool から入手できます。
要約(オリジナル)
Network quantization allows inference to be conducted using low-precision arithmetic for improved inference efficiency of deep neural networks on edge devices. However, designing aggressively low-bit (e.g., 2-bit) quantization schemes on complex tasks, such as object detection, still remains challenging in terms of severe performance degradation and unverifiable efficiency on common hardware. In this paper, we propose an Accurate Quantized object Detection solution, termed AQD, to fully get rid of floating-point computation. To this end, we target using fixed-point operations in all kinds of layers, including the convolutional layers, normalization layers, and skip connections, allowing the inference to be executed using integer-only arithmetic. To demonstrate the improved latency-vs-accuracy trade-off, we apply the proposed methods on RetinaNet and FCOS. In particular, experimental results on MS-COCO dataset show that our AQD achieves comparable or even better performance compared with the full-precision counterpart under extremely low-bit schemes, which is of great practical value. Source code and models are available at: https://github.com/ziplab/QTool
arxiv情報
著者 | Peng Chen,Jing Liu,Bohan Zhuang,Mingkui Tan,Chunhua Shen |
発行日 | 2024-02-22 11:54:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google