Bridging the gap between image coding for machines and humans

要約

マシン用画像コーディング (ICM) は、マシン ビジョン分析の精度の低下を最小限に抑えながら、画像を表現するために必要なビットレートを削減することを目的としています。
監視などの多くの使用例では、圧縮プロセスによって視覚的な品質が大幅に劣化しないことも重要です。
ニューラル ネットワーク (NN) ベースの ICM コーデックを使用する最近の研究では、従来の方法に比べてコーディングが大幅に向上することが示されています。
ただし、解凍された画像、特に低ビットレートでは、チェッカーボードのアーティファクトが含まれることがよくあります。
我々は、推論フェーズで余分なビットコストやパラメータを追加することなく、マシン分析の精度を維持しながら、ICM コーデックの視覚的品質を大幅に向上させる、敵対的トレーニングに基づく効果的なデコーダ微調整スキームを提案します。
結果は、タスク パフォーマンス スコアの相対変化 -1.6% という無視できるコストで、チェッカーボード アーティファクトが完全に除去されたことを示しています。
マシンの消費が主なターゲットである場合など、ある程度のアーティファクトが許容できる場合、この手法を使用すると、タスクのパフォーマンスを損なうことなく、ピクセル忠実度と特徴忠実度の両方のスコアを向上させることができます。

要約(オリジナル)

Image coding for machines (ICM) aims at reducing the bitrate required to represent an image while minimizing the drop in machine vision analysis accuracy. In many use cases, such as surveillance, it is also important that the visual quality is not drastically deteriorated by the compression process. Recent works on using neural network (NN) based ICM codecs have shown significant coding gains against traditional methods; however, the decompressed images, especially at low bitrates, often contain checkerboard artifacts. We propose an effective decoder finetuning scheme based on adversarial training to significantly enhance the visual quality of ICM codecs, while preserving the machine analysis accuracy, without adding extra bitcost or parameters at the inference phase. The results show complete removal of the checkerboard artifacts at the negligible cost of -1.6% relative change in task performance score. In the cases where some amount of artifacts is tolerable, such as when machine consumption is the primary target, this technique can enhance both pixel-fidelity and feature-fidelity scores without losing task performance.

arxiv情報

著者 Nam Le,Honglei Zhang,Francesco Cricri,Ramin G. Youvalari,Hamed Rezazadegan Tavakoli,Emre Aksu,Miska M. Hannuksela,Esa Rahtu
発行日 2024-01-19 14:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク