要約
暗黙神経表現(INR)に関する最近の研究により、従来のビデオコンテンツを効率的に表現しエンコードする可能性が実証されている。本論文では、新しいINRベースの没入型ビデオコーデックであるMV-HiNeRVを提案することで、初めて没入型(マルチビュー)ビデオへの応用を拡張する。MV-HiNeRVは、シングルビュービデオ圧縮用に開発された最新のINRベースビデオコーデックHiNeRVの改良版である。我々は、各ビューに対して異なる特徴グリッドのグループを学習し、学習したネットワークパラメータをすべてのビューで共有するようにモデルを修正した。これにより、このモデルはマルチビュービデオ内に存在する時空間的およびビュー間の冗長性を効果的に利用することができる。提案されたコーデックは、MPEG Immersive Video(MIV)共通テスト条件におけるマルチビューテクスチャおよびデプスビデオシーケンスの圧縮に使用され、VVenCビデオコーデックを使用するMIVテストモデル(TMIV)と比較テストされた。その結果、MV-HiNeRVの優れた性能が実証され、TMIVと比較して符号化利得が大幅に向上(最大72.33%)しました。MV-HiNeRVの実装は、さらなる開発と評価のために公開される予定です。
要約(オリジナル)
Recent work on implicit neural representations (INRs) has evidenced their potential for efficiently representing and encoding conventional video content. In this paper we, for the first time, extend their application to immersive (multi-view) videos, by proposing MV-HiNeRV, a new INR-based immersive video codec. MV-HiNeRV is an enhanced version of a state-of-the-art INR-based video codec, HiNeRV, which was developed for single-view video compression. We have modified the model to learn a different group of feature grids for each view, and share the learnt network parameters among all views. This enables the model to effectively exploit the spatio-temporal and the inter-view redundancy that exists within multi-view videos. The proposed codec was used to compress multi-view texture and depth video sequences in the MPEG Immersive Video (MIV) Common Test Conditions, and tested against the MIV Test model (TMIV) that uses the VVenC video codec. The results demonstrate the superior performance of MV-HiNeRV, with significant coding gains (up to 72.33%) over TMIV. The implementation of MV-HiNeRV will be published for further development and evaluation.
arxiv情報
著者 | Ho Man Kwan,Fan Zhang,Andrew Gower,David Bull |
発行日 | 2024-02-02 17:49:31+00:00 |
arxivサイト | arxiv_id(pdf) |