Analyzing and Improving the Pyramidal Predictive Network for Future Video Frame Prediction

要約

ピラミッド型予測ネットワーク (PPNV1) は、興味深い時間ピラミッド アーキテクチャを提案し、将来のビデオ フレーム予測のタスクで有望な結果をもたらします。
そのシグナル伝達と特徴的なアーティファクトを公開して分析し、それらに対処するためのモデル アーキテクチャとトレーニング戦略の対応する改善を提案します。
PPNV1 は理論的には人間の脳の働きを模倣していますが、その不注意な信号処理はネットワーク内のエイリアシングにつながります。
問題を解決するために、ネットワーク アーキテクチャを再設計します。
この新しいアーキテクチャは、不当な情報拡散を改善するだけでなく、ニューラル ネットワークのエイリアシングを解決することも目的としています。
異なる入力が単純​​に連結されることはなくなり、ダウンサンプリングとアップサンプリングのコンポーネントも再設計されて、ネットワークが低周波入力のフーリエ特徴からイメージをより簡単に構築できるようになりました。
最後に、トレーニングとテスト中の入力の不一致の問題を軽減するために、トレーニング戦略をさらに改善します。
全体として、改善されたモデルはより解釈しやすく、より強力であり、予測の質が向上しています。
コードは https://github.com/Ling-CF/PPNV2 で入手できます。

要約(オリジナル)

The pyramidal predictive network (PPNV1) proposes an interesting temporal pyramid architecture and yields promising results on the task of future video-frame prediction. We expose and analyze its signal dissemination and characteristic artifacts, and propose corresponding improvements in model architecture and training strategies to address them. Although the PPNV1 theoretically mimics the workings of human brain, its careless signal processing leads to aliasing in the network. We redesign the network architecture to solve the problems. In addition to improving the unreasonable information dissemination, the new architecture also aims to solve the aliasing in neural networks. Different inputs are no longer simply concatenated, and the downsampling and upsampling components have also been redesigned to ensure that the network can more easily construct images from Fourier features of low-frequency inputs. Finally, we further improve the training strategies, to alleviate the problem of input inconsistency during training and testing. Overall, the improved model is more interpretable, stronger, and the quality of its predictions is better. Code is available at https://github.com/Ling-CF/PPNV2.

arxiv情報

著者 Chaofan Ling,Weihua Li,Junpei Zhong
発行日 2023-01-13 07:38:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク