NIRVANA: Neural Implicit Representations of Videos with Adaptive Networks and Autoregressive Patch-wise Modeling

要約

Implicit Neural Representations (INR) は、高品質のビデオ圧縮のための強力なツールであることが最近示されました。
ただし、既存の作品は、ビデオの一時的な冗長性を明示的に活用していないため、エンコード時間が長くなるという制限があります。
さらに、これらの方法のアーキテクチャは固定されており、より長いビデオやより高い解像度に拡張することはできません。
これらの問題に対処するために、ビデオをフレームのグループとして扱い、パッチごとの予測を実行する各グループに個別のネットワークを適合させる NIRVANA を提案します。
この設計では、空間次元と時間次元で各グループ内で計算を共有するため、ビデオのエンコード時間が短縮されます。
ビデオ表現は自己回帰的にモデル化され、ネットワークは前のグループのモデルの重みを使用して初期化された現在のグループに適合します。
効率をさらに高めるために、トレーニング中にネットワーク パラメーターの量子化を実行し、事後プルーニングや量子化を必要としません。
ベンチマーク UVG データセットでの以前の作業と比較すると、NIRVANA は、同じ圧縮率を維持しながら、エンコーディング品質を 37.36 から 37.70 (PSNR に関して) に改善し、エンコーディング速度を 12 倍向上させます。
より大きな解像度とより長いビデオに苦労する以前のビデオ INR 作品とは対照的に、私たちのアルゴリズムは非常に柔軟で、パッチごとの自己回帰設計により自然にスケーリングすることを示しています。
さらに、フレーム間の動きが変化するビデオに適応することで、可変ビットレート圧縮を実現します。
NIRVANA は 6 倍のデコード速度を実現し、より多くの GPU で適切にスケーリングされるため、さまざまな展開シナリオで実用的です。

要約(オリジナル)

Implicit Neural Representations (INR) have recently shown to be powerful tool for high-quality video compression. However, existing works are limiting as they do not explicitly exploit the temporal redundancy in videos, leading to a long encoding time. Additionally, these methods have fixed architectures which do not scale to longer videos or higher resolutions. To address these issues, we propose NIRVANA, which treats videos as groups of frames and fits separate networks to each group performing patch-wise prediction. This design shares computation within each group, in the spatial and temporal dimensions, resulting in reduced encoding time of the video. The video representation is modeled autoregressively, with networks fit on a current group initialized using weights from the previous group’s model. To further enhance efficiency, we perform quantization of the network parameters during training, requiring no post-hoc pruning or quantization. When compared with previous works on the benchmark UVG dataset, NIRVANA improves encoding quality from 37.36 to 37.70 (in terms of PSNR) and the encoding speed by 12X, while maintaining the same compression rate. In contrast to prior video INR works which struggle with larger resolution and longer videos, we show that our algorithm is highly flexible and scales naturally due to its patch-wise and autoregressive designs. Moreover, our method achieves variable bitrate compression by adapting to videos with varying inter-frame motion. NIRVANA achieves 6X decoding speed and scales well with more GPUs, making it practical for various deployment scenarios.

arxiv情報

著者 Shishira R Maiya,Sharath Girish,Max Ehrlich,Hanyu Wang,Kwot Sin Lee,Patrick Poirson,Pengxiang Wu,Chen Wang,Abhinav Shrivastava
発行日 2022-12-30 08:17:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク