要約
従来の画像・映像圧縮は、信号の忠実度をできるだけ高くして、伝送・保存コストを削減することを目的としていた。しかし、近年の機械解析やセマンティックモニタリングの需要の増加に伴い、画像・映像圧縮においては、信号忠実度よりも意味忠実度が新たな関心事となってきている。本論文では、近年のクロスモーダル翻訳・生成の進展に伴い、冗長性の高いビジュアルデータ〜(画像、映像など)を、意味性を保ったままコンパクトで人間が理解しやすい領域〜(テキスト、スケッチ、意味地図、属性など)に変換する、ビジュアルデータ用の意味圧縮フレームワーク、クロスモーダル圧縮〜(CMC)を提案します。具体的には、まず、CMC問題をレートディストーション最適化問題として定式化する。次に、従来の画像・動画圧縮や最近の特徴量圧縮のフレームワークとの関係を調べ、我々のCMCとこれらの先行フレームワークの違いを示す。そして、CMCの新しいパラダイムを提案し、その有効性を実証する。定性的・定量的な結果から,提案するCMCは超高圧縮率で良好な再構成結果を得ることができ,広く用いられているJPEGのベースラインよりも優れた圧縮性能を示すことがわかる.
要約(オリジナル)
Traditional image/video compression aims to reduce the transmission/storage cost with signal fidelity as high as possible. However, with the increasing demand for machine analysis and semantic monitoring in recent years, semantic fidelity rather than signal fidelity is becoming another emerging concern in image/video compression. With the recent advances in cross modal translation and generation, in this paper, we propose the cross modal compression~(CMC), a semantic compression framework for visual data, to transform the high redundant visual data~(such as image, video, etc.) into a compact, human-comprehensible domain~(such as text, sketch, semantic map, attributions, etc.), while preserving the semantic. Specifically, we first formulate the CMC problem as a rate-distortion optimization problem. Secondly, we investigate the relationship with the traditional image/video compression and the recent feature compression frameworks, showing the difference between our CMC and these prior frameworks. Then we propose a novel paradigm for CMC to demonstrate its effectiveness. The qualitative and quantitative results show that our proposed CMC can achieve encouraging reconstructed results with an ultrahigh compression ratio, showing better compression performance than the widely used JPEG baseline.
arxiv情報
著者 | Jiguo Li,Chuanmin Jia,Xinfeng Zhang,Siwei Ma,Wen Gao |
発行日 | 2022-09-06 15:31:11+00:00 |
arxivサイト | arxiv_id(pdf) |