PTQ4RIS: Post-Training Quantization for Referring Image Segmentation

要約

画像セグメンテーション(RIS)を参照すると、視覚情報と言語情報の両方を理解することにより、特定の文で言及されたオブジェクトを画像にセグメント化することを目的としています。
ただし、既存のRISメソッドは、リソースに制限されたエッジデバイスに関する実用的なアプリケーションに関する考慮事項を無視して、トップパフォーマンスモデルを探索する傾向があります。
この監視は、デバイス上のリスファレンスに大きな課題をもたらします。
この目的のために、PTQ4RISと呼ばれる効果的で効率的なトレーニング後の量子化フレームワークを提案します。
具体的には、最初に、RISモデルの量子化におけるパフォーマンス分解の根本原因の詳細な分析を実施し、視覚およびテキストの量子化困難に対処するために、デュアル領域量子化(DRQ)および繰り返しベースの外れ値の量子化(RORQ)を提案します
エンコーダ。
さまざまなビット設定(8〜4ビット)の3つのベンチマークでの広範な実験は、その優れた性能を示しています。
重要なことに、RISタスクのために特別に設計された最初のPTQメソッドであり、RISアプリケーションでのPTQの実現可能性を強調しています。
コードとビデオは{https://github.com/gugu511yy/ptq4ris}で入手できます。

要約(オリジナル)

Referring Image Segmentation (RIS), aims to segment the object referred by a given sentence in an image by understanding both visual and linguistic information. However, existing RIS methods tend to explore top-performance models, disregarding considerations for practical applications on resources-limited edge devices. This oversight poses a significant challenge for on-device RIS inference. To this end, we propose an effective and efficient post-training quantization framework termed PTQ4RIS. Specifically, we first conduct an in-depth analysis of the root causes of performance degradation in RIS model quantization and propose dual-region quantization (DRQ) and reorder-based outlier-retained quantization (RORQ) to address the quantization difficulties in visual and text encoders. Extensive experiments on three benchmarks with different bits settings (from 8 to 4 bits) demonstrates its superior performance. Importantly, we are the first PTQ method specifically designed for the RIS task, highlighting the feasibility of PTQ in RIS applications. Code and video are available at {https://github.com/gugu511yy/PTQ4RIS}.

arxiv情報

著者 Xiaoyan Jiang,Hang Yang,Kaiying Zhu,Xihe Qiu,Shibo Zhao,Sifan Zhou
発行日 2025-02-18 14:54:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク