PNeRV: A Polynomial Neural Representation for Videos

要約

ビデオ データ上の Implicit Neural Representation (INR) を抽出すると、時間的次元が追加されるため、特有の課題が生じます。
ビデオのコンテキストでは、INR は主にフレームのみのパラメータ化に依存しており、ピクセル レベル (空間) 表現で観察される時空間的連続性が犠牲になっています。
これを軽減するために、時空間的連続性を維持するビデオ用のパラメータ単位で効率的なパッチ単位の INR である Polynomial Neural Representation for Video (PNeRV) を導入します。
PNeRV は、多項式ニューラル ネットワークのモデリング機能を利用して、連続空間 (パッチ) 信号を連続時間 (フレーム) 信号で変調します。
さらに、パラメーターの効率を維持しながら空間の連続性を確保する、カスタムの階層的パッチごとの空間サンプリング スキームを提案します。
また、PNeRV のパフォーマンスをさらに向上させるために、慎重に設計された位置埋め込み手法も採用しています。
私たちの広範な実験により、PNeRV は、圧縮などの従来の暗黙的ニューラル表現タスクと、基礎となる表現における時空間的連続性を必要とする下流アプリケーションのベースラインを上回るパフォーマンスを示すことが実証されました。
PNeRV は、INR の領域でビデオ データによってもたらされる課題に対処するだけでなく、高度なビデオ処理と分析のための新しい道も開きます。

要約(オリジナル)

Extracting Implicit Neural Representations (INRs) on video data poses unique challenges due to the additional temporal dimension. In the context of videos, INRs have predominantly relied on a frame-only parameterization, which sacrifices the spatiotemporal continuity observed in pixel-level (spatial) representations. To mitigate this, we introduce Polynomial Neural Representation for Videos (PNeRV), a parameter-wise efficient, patch-wise INR for videos that preserves spatiotemporal continuity. PNeRV leverages the modeling capabilities of Polynomial Neural Networks to perform the modulation of a continuous spatial (patch) signal with a continuous time (frame) signal. We further propose a custom Hierarchical Patch-wise Spatial Sampling Scheme that ensures spatial continuity while retaining parameter efficiency. We also employ a carefully designed Positional Embedding methodology to further enhance PNeRV’s performance. Our extensive experimentation demonstrates that PNeRV outperforms the baselines in conventional Implicit Neural Representation tasks like compression along with downstream applications that require spatiotemporal continuity in the underlying representation. PNeRV not only addresses the challenges posed by video data in the realm of INRs but also opens new avenues for advanced video processing and analysis.

arxiv情報

著者 Sonam Gupta,Snehal Singh Tomar,Grigorios G Chrysos,Sukhendu Das,A. N. Rajagopalan
発行日 2024-06-27 16:15:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク