Post-Training Quantization for Video Matting

要約

ビデオマットは、映画の制作や仮想現実などのアプリケーションにとって重要ですが、リソース制約のデバイスに計算集中モデルを展開することは課題をもたらします。
量子化は、モデルの圧縮と加速のための重要な手法です。
効率的なアプローチとして、トレーニング後の量子化(PTQ)は、ビデオマットの初期段階にあり、精度と時間的一貫性を維持する上で大きなハードルに直面しています。
これらの課題に対処するために、このペーパーでは、ビデオマットモデルのために特別に設計された斬新で一般的なPTQフレームワークを提案します。これは、このドメインでの最初の体系的な試みである、私たちの知る限り、マークを示しています。
私たちの貢献には、(1)高速で安定した初期量子化と局所依存性キャプチャのためのブロック再構築に基づく最適化を組み合わせた2段階のPTQ戦略が含まれます。
(2)ネットワークが無視されたBN層効果などの要因から生じる累積統計的歪みを補償することを可能にする統計的に駆動されたグローバルアフィンキャリブレーション(GAC)メソッド。
(3)PTQプロセスを導くために時間的およびセマンティックなプライアーをフレームから活用し、複雑なシーンで移動する前景を区別するモデルの能力を高め、最終的には超低ビット量の量子化下でも完全な精度のパフォーマンスを達成する光学流量支援(OFA)コンポーネント。
包括的な定量的および視覚的結果は、当社のPTQ4VMが、既存の量子化方法と比較して、さまざまなビット幅にわたって最先端の精度パフォーマンスを達成することを示しています。
4ビットのPTQ4VMは、8倍のフロップの節約を享受しながら、完全な極端なカウンターパートに近いパフォーマンスを達成することさえ強調しています。

要約(オリジナル)

Video matting is crucial for applications such as film production and virtual reality, yet deploying its computationally intensive models on resource-constrained devices presents challenges. Quantization is a key technique for model compression and acceleration. As an efficient approach, Post-Training Quantization (PTQ) is still in its nascent stages for video matting, facing significant hurdles in maintaining accuracy and temporal coherence. To address these challenges, this paper proposes a novel and general PTQ framework specifically designed for video matting models, marking, to the best of our knowledge, the first systematic attempt in this domain. Our contributions include: (1) A two-stage PTQ strategy that combines block-reconstruction-based optimization for fast, stable initial quantization and local dependency capture, followed by a global calibration of quantization parameters to minimize accuracy loss. (2) A Statistically-Driven Global Affine Calibration (GAC) method that enables the network to compensate for cumulative statistical distortions arising from factors such as neglected BN layer effects, even reducing the error of existing PTQ methods on video matting tasks up to 20%. (3) An Optical Flow Assistance (OFA) component that leverages temporal and semantic priors from frames to guide the PTQ process, enhancing the model’s ability to distinguish moving foregrounds in complex scenes and ultimately achieving near full-precision performance even under ultra-low-bit quantization. Comprehensive quantitative and visual results show that our PTQ4VM achieves the state-of-the-art accuracy performance across different bit-widths compared to the existing quantization methods. We highlight that the 4-bit PTQ4VM even achieves performance close to the full-precision counterpart while enjoying 8x FLOP savings.

arxiv情報

著者 Tianrui Zhu,Houyuan Chen,Ruihao Gong,Michele Magno,Haotong Qin,Kai Zhang
発行日 2025-06-12 15:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク