FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos

要約

座標ベースまたは暗黙のニューラル表現としても知られるニューラル フィールドは、さまざまな形式の信号を表現、生成、操作する優れた能力を示しています。
ただし、ビデオ表現の場合、ピクセル単位の座標を RGB カラーにマッピングすると、圧縮パフォーマンスが比較的低くなり、収束と推論の速度が遅くなります。
時間座標をフレーム全体にマッピングするフレーム単位のビデオ表現は、ビデオを表現するための代替方法として最近登場し、圧縮率とエンコード速度が向上しました。
有望ではありますが、最先端のビデオ圧縮アルゴリズムのパフォーマンスにはまだ達していません.
この作業では、フロー情報をフレーム単位の表現に組み込み、標準のビデオコーデックに触発されたビデオのフレーム全体の一時的な冗長性を活用するための新しい方法である FFNeRV を提案します。
さらに、1 次元の時間グリッドによって有効になる完全な畳み込みアーキテクチャを導入し、空間的特徴の連続性を向上させます。
実験結果は、FFNeRV が、フレーム単位の表現またはニューラル フィールドを使用する方法の中で、ビデオ圧縮およびフレーム補間の最高のパフォーマンスをもたらすことを示しています。
モデルのサイズをさらに縮小するために、グループ畳み込みと点ごとの畳み込みを使用して、よりコンパクトな畳み込みアーキテクチャを考案します。
量子化を考慮したトレーニングやエントロピー コーディングなどのモデル圧縮技術により、FFNeRV は、広く使用されている標準ビデオ コーデック (H.264 および HEVC) よりも優れたパフォーマンスを発揮し、最先端のビデオ圧縮アルゴリズムと同等のパフォーマンスを発揮します。

要約(オリジナル)

Neural fields, also known as coordinate-based or implicit neural representations, have shown a remarkable capability of representing, generating, and manipulating various forms of signals. For video representations, however, mapping pixel-wise coordinates to RGB colors has shown relatively low compression performance and slow convergence and inference speed. Frame-wise video representation, which maps a temporal coordinate to its entire frame, has recently emerged as an alternative method to represent videos, improving compression rates and encoding speed. While promising, it has still failed to reach the performance of state-of-the-art video compression algorithms. In this work, we propose FFNeRV, a novel method for incorporating flow information into frame-wise representations to exploit the temporal redundancy across the frames in videos inspired by the standard video codecs. Furthermore, we introduce a fully convolutional architecture, enabled by one-dimensional temporal grids, improving the continuity of spatial features. Experimental results show that FFNeRV yields the best performance for video compression and frame interpolation among the methods using frame-wise representations or neural fields. To reduce the model size even further, we devise a more compact convolutional architecture using the group and pointwise convolutions. With model compression techniques, including quantization-aware training and entropy coding, FFNeRV outperforms widely-used standard video codecs (H.264 and HEVC) and performs on par with state-of-the-art video compression algorithms.

arxiv情報

著者 Joo Chan Lee,Daniel Rho,Jong Hwan Ko,Eunbyung Park
発行日 2022-12-23 12:51:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク