DNeRV: Modeling Inherent Dynamics via Difference Neural Representation for Videos

要約

【タイトル】DNeRV:ビデオの差分ニューラル表現による本来の動的モデリング

【要約】
– 現在の暗黙のニューラル表現(INR)方法は、ビデオの時空的冗長性を十分に活用していない。
– インデックスベースのINRは、コンテンツ固有の空間特徴を無視し、ハイブリッドINRは隣接フレームに対する文脈依存性を無視しているため、大きな動きや動力を持つシーンに対してモデリング能力が低くなる。
– 私たちは、関数への適合観点からこの制限を分析し、フレーム差の重要性を明らかにしている。
– 明示的な動作情報を利用するために、ビデオ用の差分ニューラル表現(DNeRV)を提案する。DNeRVは、コンテンツとフレーム差の2つのストリームで構成されており、効果的な特徴融合のためのコラボレーションコンテンツユニットも導入されている。
– DNeRVは、ビデオの圧縮、インペインティング、および補間のためにテストされた。DNeRVは、最先端のニューラル圧縮アプローチに対して競争力のある結果を達成し、$960 \times 1920$ビデオにおける既存の暗黙の方法よりも優れたインペインティングおよび補間結果を達成している。

要約(オリジナル)

Existing implicit neural representation (INR) methods do not fully exploit spatiotemporal redundancies in videos. Index-based INRs ignore the content-specific spatial features and hybrid INRs ignore the contextual dependency on adjacent frames, leading to poor modeling capability for scenes with large motion or dynamics. We analyze this limitation from the perspective of function fitting and reveal the importance of frame difference. To use explicit motion information, we propose Difference Neural Representation for Videos (DNeRV), which consists of two streams for content and frame difference. We also introduce a collaborative content unit for effective feature fusion. We test DNeRV for video compression, inpainting, and interpolation. DNeRV achieves competitive results against the state-of-the-art neural compression approaches and outperforms existing implicit methods on downstream inpainting and interpolation for $960 \times 1920$ videos.

arxiv情報

著者 Qi Zhao,M. Salman Asif,Zhan Ma
発行日 2023-04-13 13:53:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク