Exploring Long- and Short-Range Temporal Information for Learned Video Compression

要約

学習されたビデオ圧縮方法は、従来のビデオ コーデックのレート ディストーション (RD) パフォーマンスに匹敵するか、それを上回るため、ビデオ コーディング コミュニティでさまざまな関心を集めています。
ただし、現在の学習ベースの手法の多くは、短距離の時間情報の利用に特化しているため、パフォーマンスが制限されます。
このペーパーでは、ビデオ コンテンツの固有の特性を活用し、圧縮パフォーマンスを向上させるための時間情報をさらに調査することに焦点を当てます。
具体的には、長距離の時間情報の活用のために、推論中にグループ オブ ピクチャ (GOP) 内で継続的に更新できる時間事前分布を提案します。
その場合、時間的事前情報には、現在の GOP 内のすべてのデコードされた画像の貴重な時間情報が含まれます。
短距離の時間情報に関しては、ロバストで効果的な補償を実現するために、プログレッシブガイド付き動き補償を提案します。
詳細には、マルチスケール補償を実現するための階層構造を設計します。
さらに重要なのは、オプティカル フロー ガイダンスを使用して各スケールの特徴マップ間のピクセル オフセットを生成し、各スケールでの補正結果が次のスケールの補正のガイドに使用されることです。
十分な実験結果は、私たちの方法が最先端のビデオ圧縮アプローチよりも優れた RD パフォーマンスを得ることができることを示しています。
コードは https://github.com/Huairui/LSTVC で公開されています。

要約(オリジナル)

Learned video compression methods have gained a variety of interest in the video coding community since they have matched or even exceeded the rate-distortion (RD) performance of traditional video codecs. However, many current learning-based methods are dedicated to utilizing short-range temporal information, thus limiting their performance. In this paper, we focus on exploiting the unique characteristics of video content and further exploring temporal information to enhance compression performance. Specifically, for long-range temporal information exploitation, we propose temporal prior that can update continuously within the group of pictures (GOP) during inference. In that case temporal prior contains valuable temporal information of all decoded images within the current GOP. As for short-range temporal information, we propose a progressive guided motion compensation to achieve robust and effective compensation. In detail, we design a hierarchical structure to achieve multi-scale compensation. More importantly, we use optical flow guidance to generate pixel offsets between feature maps at each scale, and the compensation results at each scale will be used to guide the following scale’s compensation. Sufficient experimental results demonstrate that our method can obtain better RD performance than state-of-the-art video compression approaches. The code is publicly available on: https://github.com/Huairui/LSTVC.

arxiv情報

著者 Huairui Wang,Zhenzhong Chen
発行日 2024-01-02 12:27:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク