HNeRV: A Hybrid Neural Representation for Videos

要約

タイトル:HNeRV:ビデオのためのハイブリッドニューラル表現

要約:

– 暗黙的なニューラル表現は、ビデオをニューラルネットワークとして保存し、ビデオ圧縮やノイズ除去などのさまざまな視覚課題において良い結果を出している。
– 入力としてフレームインデックスまたは位置インデックスを持つ暗黙的表現(NeRV、E-NeRVなど)は、固定されたコンテンツに依存しない埋め込みを使用してビデオを再構築する。しかし、この埋め込みにより回帰能力と内部汎用性が制限されるという問題がある。
– 本論文では、ビデオのためのハイブリッドニューラル表現(HNeRV)を提案し、学習可能なエンコーダでコンテンツ適応型の埋め込みを生成し、これをデコーダの入力として使用する。また、入力埋め込みに加えて、HNeRVブロックを導入し、モデルパラメータをネットワーク全体に均等に分散させ、高解像度のコンテンツとビデオの詳細を格納する高い容量を持つ上位層(出力に近い層)を確保する。
– コンテンツ適応型埋め込みと再設計されたアーキテクチャにより、HNeRVはビデオの回帰課題において、再構築品質(+4.7 PSNR)と収束速度(16倍速い)の両方で暗黙的な方法を上回り、内部汎用性も高める。単純で効率的なビデオ表現として、HNeRVは従来のコーデック(H.264、H.265)や学習ベースの圧縮方法と比較して、速度、柔軟性、展開の利点を備えている。
– プロジェクトページは、https://haochen-rye.github.io/HNeRVにあり、コードはhttps://github.com/haochen-rye/HNeRVにある。
– 最後に、HNeRVの効果についてビデオ圧縮やビデオインペイントなどの後続タスクで探索する。

要約(オリジナル)

Implicit neural representations store videos as neural networks and have performed well for various vision tasks such as video compression and denoising. With frame index or positional index as input, implicit representations (NeRV, E-NeRV, \etc) reconstruct video from fixed and content-agnostic embeddings. Such embedding largely limits the regression capacity and internal generalization for video interpolation. In this paper, we propose a Hybrid Neural Representation for Videos (HNeRV), where a learnable encoder generates content-adaptive embeddings, which act as the decoder input. Besides the input embedding, we introduce HNeRV blocks, which ensure model parameters are evenly distributed across the entire network, such that higher layers (layers near the output) can have more capacity to store high-resolution content and video details. With content-adaptive embeddings and re-designed architecture, HNeRV outperforms implicit methods in video regression tasks for both reconstruction quality ($+4.7$ PSNR) and convergence speed ($16\times$ faster), and shows better internal generalization. As a simple and efficient video representation, HNeRV also shows decoding advantages for speed, flexibility, and deployment, compared to traditional codecs~(H.264, H.265) and learning-based compression methods. Finally, we explore the effectiveness of HNeRV on downstream tasks such as video compression and video inpainting. We provide project page at https://haochen-rye.github.io/HNeRV, and Code at https://github.com/haochen-rye/HNeRV

arxiv情報

著者 Hao Chen,Matt Gwilliam,Ser-Nam Lim,Abhinav Shrivastava
発行日 2023-04-05 17:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク