要約
暗黙の神経表現(INR)は、ビデオをニューラルネットワークとして表現することにより、ビデオ圧縮の重要な可能性を示しています。
ただし、フレームの数が増えると、トレーニングと推論のメモリ消費が大幅に増加し、リソースが制約のシナリオで課題をもたらします。
フレームごとにビデオフレームを処理し、長いビデオを効率的に圧縮できる従来のビデオ圧縮フレームワークの成功に触発され、INRのこのモデリング戦略を採用して、タイムラインベースの自己回帰モデリングの観点からフレームワークを統合することを目指しています。
この作業では、自己回帰(AR)の観点からINRモデルの新しい理解を提示し、メモリ効率の高いニューラルビデオ圧縮(UAR-NVC)の統一された自己回帰フレームワークを導入します。
UAR-NVCは、統一された自己回帰パラダイムの下で、タイムラインベースのニューラルビデオ圧縮を統合します。
ビデオをいくつかのクリップに分割し、各クリップを異なるINRモデルインスタンスを使用してプロセスし、両方の圧縮フレームワークの利点を活用しながら、どちらの形式にもシームレスな適応を可能にします。
クリップ間の時間的冗長性をさらに減らすために、2つのモジュールを設計して、これらのモデルパラメーターの初期化、トレーニング、および圧縮を最適化します。
UAR-NVCは、クリップの長さを変化させることにより、調整可能なレイテンシをサポートします。
広範な実験結果は、柔軟なビデオクリップ設定を備えたUAR-NVCが、リソースに制約のある環境に適応し、さまざまなベースラインモデルと比較してパフォーマンスを大幅に改善できることを示しています。
要約(オリジナル)
Implicit Neural Representations (INRs) have demonstrated significant potential in video compression by representing videos as neural networks. However, as the number of frames increases, the memory consumption for training and inference increases substantially, posing challenges in resource-constrained scenarios. Inspired by the success of traditional video compression frameworks, which process video frame by frame and can efficiently compress long videos, we adopt this modeling strategy for INRs to decrease memory consumption, while aiming to unify the frameworks from the perspective of timeline-based autoregressive modeling. In this work, we present a novel understanding of INR models from an autoregressive (AR) perspective and introduce a Unified AutoRegressive Framework for memory-efficient Neural Video Compression (UAR-NVC). UAR-NVC integrates timeline-based and INR-based neural video compression under a unified autoregressive paradigm. It partitions videos into several clips and processes each clip using a different INR model instance, leveraging the advantages of both compression frameworks while allowing seamless adaptation to either in form. To further reduce temporal redundancy between clips, we design two modules to optimize the initialization, training, and compression of these model parameters. UAR-NVC supports adjustable latencies by varying the clip length. Extensive experimental results demonstrate that UAR-NVC, with its flexible video clip setting, can adapt to resource-constrained environments and significantly improve performance compared to different baseline models.
arxiv情報
著者 | Jia Wang,Xinfeng Zhang,Gai Zhang,Jun Zhu,Lv Tang,Li Zhang |
発行日 | 2025-03-04 15:54:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google