Improving Post-Training Quantization on Object Detection with Task Loss-Guided Lp Metric

要約

タイトル:タスク損失ガイド付きLpメトリックを用いたオブジェクト検出におけるポストトレーニング量子化の改善

要約:
– 物体検出ネットワークの効率的な推論は、エッジデバイスでの主要な課題である。
– ポストトレーニング量子化(PTQ)は、フル精度モデルを直接低ビット幅に変換する効果的で便利なアプローチであり、モデルの推論複雑さを減らすことができる。
– しかし、オブジェクト検出などの複雑なタスクに適用すると、精度が大幅に低下するという問題がある。
– PTQは、異なるメトリックによって量子化パラメータを最適化し、量子化の摂動を最小化することができる。
– 特別なオブジェクト検出ネットワークの場合、Lpメトリックのパラメータpは量子化のパフォーマンスに大きく影響することが観察される。
– 一定のハイパーパラメータpを使用することは、最適な量子化パフォーマンスを達成しません。
– この問題を緩和するために、物体検出のタスク損失を表すオブジェクト検出出力損失(ODOL)を使用して、DetPTQというフレームワークを提案する。
– DetPTQは、ODOLベースの適応Lpメトリックを使用して、最適な量子化パラメータを選択する。
– 実験により、DetPTQが、2Dおよび3Dの両方のオブジェクト検出器において、最先端のPTQ方法よりも大幅に優れていることが示されている。
– 例えば、4ビットの重みと4ビットのアクティベーションを持つRetinaNet-ResNet18において、31.1 / 31.7(量子化/フルプレシジョン)mAPを実現している。

要約(オリジナル)

Efficient inference for object detection networks is a major challenge on edge devices. Post-Training Quantization (PTQ), which transforms a full-precision model into low bit-width directly, is an effective and convenient approach to reduce model inference complexity. But it suffers severe accuracy drop when applied to complex tasks such as object detection. PTQ optimizes the quantization parameters by different metrics to minimize the perturbation of quantization. The p-norm distance of feature maps before and after quantization, Lp, is widely used as the metric to evaluate perturbation. For the specialty of object detection network, we observe that the parameter p in Lp metric will significantly influence its quantization performance. We indicate that using a fixed hyper-parameter p does not achieve optimal quantization performance. To mitigate this problem, we propose a framework, DetPTQ, to assign different p values for quantizing different layers using an Object Detection Output Loss (ODOL), which represents the task loss of object detection. DetPTQ employs the ODOL-based adaptive Lp metric to select the optimal quantization parameters. Experiments show that our DetPTQ outperforms the state-of-the-art PTQ methods by a significant margin on both 2D and 3D object detectors. For example, we achieve 31.1/31.7(quantization/full-precision) mAP on RetinaNet-ResNet18 with 4-bit weight and 4-bit activation.

arxiv情報

著者 Lin Niu,Jiawei Liu,Zhihang Yuan,Dawei Yang,Xinggang Wang,Wenyu Liu
発行日 2023-04-25 07:54:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク