CNeRV: Content-adaptive Neural Representation for Visual Data

要約

視覚データの圧縮と再構築は、ディープ ラーニングが普及する前から、コンピューター ビジョンのコミュニティで広く研究されてきました。
最近では、深層学習を使用して既存のパイプラインを改善または改良するものもあれば、オートエンコーダーや SIREN や NeRV などの暗黙的なニューラル表現を含むエンドツーエンドのアプローチを提案するものもあります。
この作業では、オートエンコーダーの一般化可能性と暗黙的表現のシンプルさとコンパクトさを組み合わせた、コンテンツ適応型埋め込みを使用したニューラル視覚表現 (CNeRV) を提案します。
単一層エンコーダーを備えた強力なデコーダーを補完する、統一され、簡潔で、内部的に (ビデオ内で) 一般化可能な、新しいコンテンツ適応埋め込みを紹介します。
トレーニング中に見られたフレームの再構成タスクで、最先端の暗黙的なニューラル表現である NeRV のパフォーマンスに匹敵しますが、トレーニング中にスキップされたフレーム (目に見えない画像) をはるかに上回ります。
目に見えない画像で同様の再構成品質を達成するために、NeRV は内部一般化の欠如により、フレームごとにオーバーフィットするのに 120 倍の時間を必要とします。
潜在コードの長さが同じで、モデルのサイズが似ている場合、CNeRV は、見える画像と見えない画像の両方の再構成でオートエンコーダーよりも優れています。
また、ビジュアルデータ圧縮の有望な結果も示しています。
詳細については、プロジェクト ページhttps://haochen-rye.github.io/CNeRV/を参照してください。

要約(オリジナル)

Compression and reconstruction of visual data have been widely studied in the computer vision community, even before the popularization of deep learning. More recently, some have used deep learning to improve or refine existing pipelines, while others have proposed end-to-end approaches, including autoencoders and implicit neural representations, such as SIREN and NeRV. In this work, we propose Neural Visual Representation with Content-adaptive Embedding (CNeRV), which combines the generalizability of autoencoders with the simplicity and compactness of implicit representation. We introduce a novel content-adaptive embedding that is unified, concise, and internally (within-video) generalizable, that compliments a powerful decoder with a single-layer encoder. We match the performance of NeRV, a state-of-the-art implicit neural representation, on the reconstruction task for frames seen during training while far surpassing for frames that are skipped during training (unseen images). To achieve similar reconstruction quality on unseen images, NeRV needs 120x more time to overfit per-frame due to its lack of internal generalization. With the same latent code length and similar model size, CNeRV outperforms autoencoders on reconstruction of both seen and unseen images. We also show promising results for visual data compression. More details can be found in the project pagehttps://haochen-rye.github.io/CNeRV/

arxiv情報

著者 Hao Chen,Matt Gwilliam,Bo He,Ser-Nam Lim,Abhinav Shrivastava
発行日 2022-11-18 18:35:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク