Improving Post-Training Quantization on Object Detection with Task Loss-Guided Lp Metric

要約

タイトル:タスク損失によるLpメトリックでオブジェクト検出の後処理量子化を改善する

要約:

– エッジデバイスにおける効率的な推論のために、完全精度モデルを直接低ビット幅モデルに変換する後処理量子化(PTQ)は、モデル推論の複雑さを減らすための効果的かつ便利なアプローチである。
– ただし、オブジェクト検出などの複雑なタスクに適用する場合、その精度が大幅に低下するため、精度を維持したまま量子化することが課題となっている。
– PTQでは、量子化の摂動を最小化するために、さまざまなメトリックで量子化パラメータを最適化する。 量子化前後の特徴マップのp-ノルム距離であるLpは、摂動を評価するメトリックとして広く使用されている。
– オブジェクト検出ネットワークの特性から、Lpメトリックのパラメータpは量子化パフォーマンスに重要な影響を与えることがわかったため、異なるレイヤーに異なるp値を割り当てるDetPTQという枠組みを提案する。
– DetPTQは、オブジェクト検出のタスク損失を表すODOL(Object Detection Output Loss)を使用して、適切な量子化パラメータを選択するためにODOLベースの適応的Lpメトリックを使用する。
– 実験結果は、DetPTQが2Dおよび3Dオブジェクト検出器の両方で状態-of-the-artのPTQ方法を大幅に上回っていることを示している。 たとえば、4ビット重量と4ビット活性化を使用してRetinaNet-ResNet18で31.1 / 31.7(量子化/完全精度)mAPを達成している。

要約(オリジナル)

Efficient inference for object detection networks is a major challenge on edge devices. Post-Training Quantization (PTQ), which transforms a full-precision model into low bit-width directly, is an effective and convenient approach to reduce model inference complexity. But it suffers severe accuracy drop when applied to complex tasks such as object detection. PTQ optimizes the quantization parameters by different metrics to minimize the perturbation of quantization. The p-norm distance of feature maps before and after quantization, Lp, is widely used as the metric to evaluate perturbation. For the specialty of object detection network, we observe that the parameter p in Lp metric will significantly influence its quantization performance. We indicate that using a fixed hyper-parameter p does not achieve optimal quantization performance. To mitigate this problem, we propose a framework, DetPTQ, to assign different p values for quantizing different layers using an Object Detection Output Loss (ODOL), which represents the task loss of object detection. DetPTQ employs the ODOL-based adaptive Lp metric to select the optimal quantization parameters. Experiments show that our DetPTQ outperforms the state-of-the-art PTQ methods by a significant margin on both 2D and 3D object detectors. For example, we achieve 31.1/31.7(quantization/full-precision) mAP on RetinaNet-ResNet18 with 4-bit weight and 4-bit activation.

arxiv情報

著者 Lin Niu,Jiawei Liu,Zhihang Yuan,Dawei Yang,Xinggang Wang,Wenyu Liu
発行日 2023-05-07 16:16:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク