Perceptual Video Coding for Machines via Satisfied Machine Ratio Modeling

要約

Videocoding for Machines (VCM) は、機械分析のために視覚信号を圧縮することを目的としています。
ただし、既存の方法では少数のマシンのみが考慮され、大部分は無視されます。
さらに、マシンの知覚特性が効果的に活用されず、圧縮効率が最適以下になります。
これらの制限を克服するために、このホワイト ペーパーでは、満足度スコアを集計することでマシンの圧縮画像とビデオの知覚品質を統計的に評価する指標である満足マシン比 (SMR) を紹介します。
各スコアは、元の画像と圧縮された画像の間の機械の知覚的な違いから導出されます。
画像分類と物体検出タスクをターゲットとして、SMR アノテーション用の 2 つの代表的なマシン ライブラリを構築し、SMR 研究を容易にする大規模な SMR データセットを作成します。
次に、深い特徴の違いと SMR の間の相関に基づいて SMR 予測モデルを提案します。
さらに、異なる品質の 2 つの画像間の SMR 差を予測することで予測精度を向上させる補助タスクを導入します。
広範な実験により、SMR モデルがマシンの圧縮パフォーマンスを大幅に向上させ、目に見えないマシン、コーデック、データセット、およびフレーム タイプに対して堅牢な汎用性を示すことが実証されました。
SMR はマシンの知覚コーディングを可能にし、VCM を特殊性から一般性へ推進します。
コードは https://github.com/ywwynm/SMR で入手できます。

要約(オリジナル)

Video Coding for Machines (VCM) aims to compress visual signals for machine analysis. However, existing methods only consider a few machines, neglecting the majority. Moreover, the machine’s perceptual characteristics are not leveraged effectively, resulting in suboptimal compression efficiency. To overcome these limitations, this paper introduces Satisfied Machine Ratio (SMR), a metric that statistically evaluates the perceptual quality of compressed images and videos for machines by aggregating satisfaction scores from them. Each score is derived from machine perceptual differences between original and compressed images. Targeting image classification and object detection tasks, we build two representative machine libraries for SMR annotation and create a large-scale SMR dataset to facilitate SMR studies. We then propose an SMR prediction model based on the correlation between deep feature differences and SMR. Furthermore, we introduce an auxiliary task to increase the prediction accuracy by predicting the SMR difference between two images in different quality. Extensive experiments demonstrate that SMR models significantly improve compression performance for machines and exhibit robust generalizability on unseen machines, codecs, datasets, and frame types. SMR enables perceptual coding for machines and propels VCM from specificity to generality. Code is available at https://github.com/ywwynm/SMR.

arxiv情報

著者 Qi Zhang,Shanshe Wang,Xinfeng Zhang,Chuanmin Jia,Zhao Wang,Siwei Ma,Wen Gao
発行日 2024-01-09 13:02:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク