要約
ビデオ圧縮の最近の進歩は、ビデオシーケンス全体のグローバルな依存関係と特性を効果的にキャプチャする暗黙の神経表現(INR)ベースの方法を導入します。
従来の学習ベースのアプローチとは異なり、INRベースの方法は、グローバルな観点からネットワークパラメーターを最適化するため、優れた圧縮の可能性をもたらします。
ただし、現在のINRメソッドのほとんどは、すべてのフレームにわたって固定された均一なネットワークアーキテクチャを利用しており、ビデオシーケンス内およびビデオシーケンス間の動的バリエーションへの適応性を制限しています。
これらの方法は、ビデオコンテンツの明確なニュアンスと遷移をキャプチャするのに苦労するため、これはしばしば最適ではない圧縮結果につながります。
これらの課題を克服するために、各ビデオシーケンスの特定のコンテンツに基づいて構造最適化を適応的に実施する革新的なINRベースのビデオ圧縮ネットワークであるビデオ圧縮(CANERV)のコンテンツ適応ニューラル表現を提案します。
ビデオシーケンス全体で動的情報をより適切にキャプチャするために、動的シーケンスレベルの調整(DSA)を提案します。
さらに、シーケンス内のフレーム間のダイナミクスのキャプチャを強化するために、動的フレームレベルの調整(DFA)を実装します。
{最後に、ビデオフレーム内の空間構造情報を効果的にキャプチャし、それによりCanervの詳細回復機能を強化するために、構造レベルの階層構造適応(HSA)を考案します。}実験結果は、CanervがH.266/VVCと状態の両方を上回ることができることを示しています
– 多様なビデオデータセット全体の最大のINRベースのビデオ圧縮技術。
要約(オリジナル)
Recent advances in video compression introduce implicit neural representation (INR) based methods, which effectively capture global dependencies and characteristics of entire video sequences. Unlike traditional and deep learning based approaches, INR-based methods optimize network parameters from a global perspective, resulting in superior compression potential. However, most current INR methods utilize a fixed and uniform network architecture across all frames, limiting their adaptability to dynamic variations within and between video sequences. This often leads to suboptimal compression outcomes as these methods struggle to capture the distinct nuances and transitions in video content. To overcome these challenges, we propose Content Adaptive Neural Representation for Video Compression (CANeRV), an innovative INR-based video compression network that adaptively conducts structure optimisation based on the specific content of each video sequence. To better capture dynamic information across video sequences, we propose a dynamic sequence-level adjustment (DSA). Furthermore, to enhance the capture of dynamics between frames within a sequence, we implement a dynamic frame-level adjustment (DFA). {Finally, to effectively capture spatial structural information within video frames, thereby enhancing the detail restoration capabilities of CANeRV, we devise a structure level hierarchical structural adaptation (HSA).} Experimental results demonstrate that CANeRV can outperform both H.266/VVC and state-of-the-art INR-based video compression techniques across diverse video datasets.
arxiv情報
著者 | Lv Tang,Jun Zhu,Xinfeng Zhang,Li Zhang,Siwei Ma,Qingming Huang |
発行日 | 2025-02-13 14:18:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google