JPD-SE: High-Level Semantics for Joint Perception-Distortion Enhancement in Image Compression

要約

人間は、コンテンツに対する高度な理解を活用することで、複雑な視覚シーンを簡単な言葉に変換したり、その逆を容易に行うことができますが、従来の画像圧縮コーデックや最近の学習型画像圧縮コーデックは、視覚コンテンツの意味的意味を十分に活用していないようです。さらに、これらのコーデックはレートディストーションに重点を置いており、特に低ビットレート領域では知覚品質で劣る傾向があり、人間の視聴者に加えて圧縮画像の消費者として急成長している下流のコンピュータビジョンアルゴリズムの性能を無視することがしばしばある。本論文では、(1)任意の画像コーデックが高レベルのセマンティクスを活用できるようにする汎用フレームワークを提示し、(2)知覚品質と歪みの共同最適化について研究する。我々のアイデアは、任意のコーデックが与えられたとき、それによって抽出された低レベルの視覚的特徴を補強するために高レベルのセマンティクスを利用し、本質的に新しい、セマンティクスを考慮したコーデックを生成することである。我々は、レート知覚歪み(R-PD)性能を共同で最適化するために、セマンティックの力を活用するセマンティック対応コーデックを教える3段階の学習スキームを提案する。さらに、セマンティック対応コーデックは、下流のコンピュータビジョンアルゴリズムの性能も向上させる。我々の主張を検証するために、広範囲な実証的評価を行い、定量的・定性的な結果を提供する。

要約(オリジナル)

While humans can effortlessly transform complex visual scenes into simple words and the other way around by leveraging their high-level understanding of the content, conventional or the more recent learned image compression codecs do not seem to utilize the semantic meanings of visual content to their full potential. Moreover, they focus mostly on rate-distortion and tend to underperform in perception quality especially in low bitrate regime, and often disregard the performance of downstream computer vision algorithms, which is a fast-growing consumer group of compressed images in addition to human viewers. In this paper, we (1) present a generic framework that can enable any image codec to leverage high-level semantics and (2) study the joint optimization of perception quality and distortion. Our idea is that given any codec, we utilize high-level semantics to augment the low-level visual features extracted by it and produce essentially a new, semantic-aware codec. We propose a three-phase training scheme that teaches semantic-aware codecs to leverage the power of semantic to jointly optimize rate-perception-distortion (R-PD) performance. As an additional benefit, semantic-aware codecs also boost the performance of downstream computer vision algorithms. To validate our claim, we perform extensive empirical evaluations and provide both quantitative and qualitative results.

arxiv情報

著者 Shiyu Duan,Huaijin Chen,Jinwei Gu
発行日 2022-08-09 05:53:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク