Progressive Fourier Neural Representation for Sequential Video Compilation

要約

Neural Implicit Representation (NIR) は、複雑で高次元のデータを表現空間にエンコードし、トレーニング可能なマッピング関数を通じて簡単に再構築できる優れた能力により、最近大きな注目を集めています。
ただし、NIR 手法では、データの関連性や類似性に関係なく、ターゲット データと表現モデルの間の 1 対 1 のマッピングが前提となります。
その結果、複数の複雑なデータに対する一般化が不十分になり、効率とスケーラビリティが制限されます。
継続的な学習を動機とするこの研究では、複数の複雑なビデオ データのニューラル暗黙的表現を連続的なエンコード セッションで蓄積および転送する方法を研究します。
NIR の制限を克服するために、我々は新しい方法であるプログレッシブ フーリエ ニューラル表現 (PFNR) を提案します。この方法は、フーリエ空間で適応的でコンパクトなサブモジュールを見つけて、各トレーニング セッションでビデオをエンコードすることを目的としています。
このスパース化されたニューラル エンコーディングにより、ニューラル ネットワークが自由な重みを保持できるようになり、将来のビデオへの適応を改善できるようになります。
さらに、新しいビデオの表現を学習するときに、PFNR は、固定された重みを使用して以前のビデオの表現を転送します。
この設計により、モデルは、以前のビデオの学習された表現を完全に保存するロスレス デコーディングを保証しながら、複数のビデオの高品質なニューラル表現を継続的に蓄積することができます。
UVG8/17 および DAVIS50 ビデオ シーケンス ベンチマークで PFNR メソッドを検証し、強力な継続学習ベースラインを超える優れたパフォーマンス向上を達成しました。
PFNR コードは https://github.com/ihaeyong/PFNR.git で入手できます。

要約(オリジナル)

Neural Implicit Representation (NIR) has recently gained significant attention due to its remarkable ability to encode complex and high-dimensional data into representation space and easily reconstruct it through a trainable mapping function. However, NIR methods assume a one-to-one mapping between the target data and representation models regardless of data relevancy or similarity. This results in poor generalization over multiple complex data and limits their efficiency and scalability. Motivated by continual learning, this work investigates how to accumulate and transfer neural implicit representations for multiple complex video data over sequential encoding sessions. To overcome the limitation of NIR, we propose a novel method, Progressive Fourier Neural Representation (PFNR), that aims to find an adaptive and compact sub-module in Fourier space to encode videos in each training session. This sparsified neural encoding allows the neural network to hold free weights, enabling an improved adaptation for future videos. In addition, when learning a representation for a new video, PFNR transfers the representation of previous videos with frozen weights. This design allows the model to continuously accumulate high-quality neural representations for multiple videos while ensuring lossless decoding that perfectly preserves the learned representations for previous videos. We validate our PFNR method on the UVG8/17 and DAVIS50 video sequence benchmarks and achieve impressive performance gains over strong continual learning baselines. The PFNR code is available at https://github.com/ihaeyong/PFNR.git.

arxiv情報

著者 Haeyong Kang,Jaehong Yoon,DaHyun Kim,Sung Ju Hwang,Chang D Yoo
発行日 2024-01-26 13:37:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク