MMVC: Learned Multi-Mode Video Compression with Block-based Prediction Mode Selection and Density-Adaptive Entropy Coding

要約

タイトル:MMVC: ブロックベースの予測モード選択と密度適応エントロピー符号化を伴う学習ベースのマルチモードビデオ圧縮

要約:

– 学習ベースのビデオ圧縮は、運動パターンやエントロピーモデルに適応しきれない制限があるが、本論文では、ブロック単位のモード集合を使用した、異なる運動パターンに適応した特徴領域予測に最適なモードを選択するディープビデオ圧縮フレームワークである多モードビデオ圧縮(MMVC)を提案する。
– 提案するマルチモードには、ConvLSTMベースの特徴領域予測、光学フロー条件付きの特徴領域予測、および静止したシーンから移動があるダイナミックなシーンまでの幅広いケースに対応する特徴伝播が含まれる。
– 時空的ブロック表現において時空的な予測をするために、特徴空間をブロックに分割する。
– エントロピー符号化については、効率的な圧縮レートを得るために密かなポスト量子化残差と疎なポスト量子化残差の両方を考慮しており、疎な残差に対してオプションのランレングス符号化を適用している。このように、本方法は、バイナリ密度マップによって誘導されたデュアルモードエントロピー符号化手法を使用しており、バイナリ選択マップの送信の余分なコストを上回る重要なレート削減を提供している。
– 本手法は、最も一般的なベンチマークデータセットを用いて検証され、PSNRおよびMS-SSIMで測定した結果、最先端のビデオ圧縮手法や標準コーデックに比べて、より良いまたは競争力のある結果を示している。

要約(オリジナル)

Learning-based video compression has been extensively studied over the past years, but it still has limitations in adapting to various motion patterns and entropy models. In this paper, we propose multi-mode video compression (MMVC), a block wise mode ensemble deep video compression framework that selects the optimal mode for feature domain prediction adapting to different motion patterns. Proposed multi-modes include ConvLSTM-based feature domain prediction, optical flow conditioned feature domain prediction, and feature propagation to address a wide range of cases from static scenes without apparent motions to dynamic scenes with a moving camera. We partition the feature space into blocks for temporal prediction in spatial block-based representations. For entropy coding, we consider both dense and sparse post-quantization residual blocks, and apply optional run-length coding to sparse residuals to improve the compression rate. In this sense, our method uses a dual-mode entropy coding scheme guided by a binary density map, which offers significant rate reduction surpassing the extra cost of transmitting the binary selection map. We validate our scheme with some of the most popular benchmarking datasets. Compared with state-of-the-art video compression schemes and standard codecs, our method yields better or competitive results measured with PSNR and MS-SSIM.

arxiv情報

著者 Bowen Liu,Yu Chen,Rakesh Chowdary Machineni,Shiyu Liu,Hun-Seok Kim
発行日 2023-04-05 07:37:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, eess.IV パーマリンク