要約
ビデオをレイヤーベースの表現に分解することは、特定のレイヤーの独立した編集を可能にするため、クリエイティブ業界のビデオ編集を簡単にするために重要です。
既存のビデオ層分解モデルは、各ビデオで独立して訓練された暗黙の神経表現(INR)に依存しており、新しいビデオに適用されるとプロセスが時間がかかります。
この制限に気づき、新しいビデオのトレーニングを高速化するための一般的なビデオ分解モデルを学ぶためのメタ学習戦略を提案します。
私たちのモデルは、ビデオエンコーダーの埋め込みを与えられているため、コンパクトなINRベースのニューラルビデオ分解モデルのパラメーターを生成するハイパーネットワークアーキテクチャに基づいています。
当社の戦略は、単一ビデオの過剰適合の問題を軽減し、重要なことに、新しい目に見えないビデオでのビデオ分解の収束を短縮することです。
私たちのコードは、https://hypernvd.github.io/で入手できます。
要約(オリジナル)
Decomposing a video into a layer-based representation is crucial for easy video editing for the creative industries, as it enables independent editing of specific layers. Existing video-layer decomposition models rely on implicit neural representations (INRs) trained independently for each video, making the process time-consuming when applied to new videos. Noticing this limitation, we propose a meta-learning strategy to learn a generic video decomposition model to speed up the training on new videos. Our model is based on a hypernetwork architecture which, given a video-encoder embedding, generates the parameters for a compact INR-based neural video decomposition model. Our strategy mitigates the problem of single-video overfitting and, importantly, shortens the convergence of video decomposition on new, unseen videos. Our code is available at: https://hypernvd.github.io/
arxiv情報
著者 | Maria Pilligua,Danna Xue,Javier Vazquez-Corral |
発行日 | 2025-03-21 16:24:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google