PTQ4RIS: Post-Training Quantization for Referring Image Segmentation

要約

参照画像セグメンテーション (RIS) は、視覚情報と言語情報の両方を理解することによって、画像内の特定の文によって参照されるオブジェクトをセグメント化することを目的としています。
ただし、既存の RIS 手法は、リソースが限られたエッジ デバイスでの実際のアプリケーションに関する考慮事項を無視して、最高のパフォーマンスのモデルを探求する傾向があります。
この見落としは、オンデバイスの RIS 推論に重大な課題をもたらします。
この目的を達成するために、PTQ4RIS と呼ばれる効果的かつ効率的なトレーニング後の量子化フレームワークを提案します。
具体的には、まず RIS モデルの量子化におけるパフォーマンス低下の根本原因の詳細な分析を実施し、ビジュアルおよびテキストにおける量子化の問題に対処するために、デュアル領域量子化 (DRQ) と並べ替えベースの異常値保持量子化 (RORQ) を提案します。
エンコーダ。
異なるビット設定 (8 ビットから 4 ビット) を使用した 3 つのベンチマークでの広範な実験により、その優れたパフォーマンスが実証されました。
重要なのは、私たちが RIS タスク専用に設計された最初の PTQ メソッドであり、RIS アプリケーションにおける PTQ の実現可能性を強調していることです。
コードは {https://github.com/gugu511yy/PTQ4RIS} で入手できます。

要約(オリジナル)

Referring Image Segmentation (RIS), aims to segment the object referred by a given sentence in an image by understanding both visual and linguistic information. However, existing RIS methods tend to explore top-performance models, disregarding considerations for practical applications on resources-limited edge devices. This oversight poses a significant challenge for on-device RIS inference. To this end, we propose an effective and efficient post-training quantization framework termed PTQ4RIS. Specifically, we first conduct an in-depth analysis of the root causes of performance degradation in RIS model quantization and propose dual-region quantization (DRQ) and reorder-based outlier-retained quantization (RORQ) to address the quantization difficulties in visual and text encoders. Extensive experiments on three benchmarks with different bits settings (from 8 to 4 bits) demonstrates its superior performance. Importantly, we are the first PTQ method specifically designed for the RIS task, highlighting the feasibility of PTQ in RIS applications. Code will be available at {https://github.com/gugu511yy/PTQ4RIS}.

arxiv情報

著者 Xiaoyan Jiang,Hang Yang,Kaiying Zhu,Xihe Qiu,Shibo Zhao,Sifan Zhou
発行日 2024-09-25 15:23:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク