PreCNet: Next-Frame Video Prediction Based on Predictive Coding


現在、神経科学において非常に影響力のある理論である予測符号化は、まだ機械学習において広く採用されていない。本研究では、Rao and Ballard (1999)の精緻なモデルを、元のスキーマに最大限忠実なまま、現代のディープラーニングのフレームワークに変換している。その結果、我々が提案するネットワーク(PreCNet)は、車載カメラから録画した都市環境の画像からなる、広く用いられている次フレーム動画予測ベンチマークでテストされ、最先端の性能を達成する。また、より大きな学習セット(BDD100kの2M画像)を用いた場合、すべての指標(MSE、PSNR、SSIM)における性能がさらに向上し、KITTI学習セットの限界が指摘された。本研究は、神経科学モデルに慎重に基づくアーキテクチャが、目の前のタスクに明示的に調整されることなく、卓越した性能を発揮できることを実証しています。


Predictive coding, currently a highly influential theory in neuroscience, has not been widely adopted in machine learning yet. In this work, we transform the seminal model of Rao and Ballard (1999) into a modern deep learning framework while remaining maximally faithful to the original schema. The resulting network we propose (PreCNet) is tested on a widely used next frame video prediction benchmark, which consists of images from an urban environment recorded from a car-mounted camera, and achieves state-of-the-art performance. Performance on all measures (MSE, PSNR, SSIM) was further improved when a larger training set (2M images from BDD100k), pointing to the limitations of the KITTI training set. This work demonstrates that an architecture carefully based in a neuroscience model, without being explicitly tailored to the task at hand, can exhibit exceptional performance.


著者 Zdenek Straka,Tomas Svoboda,Matej Hoffmann
発行日 2023-02-08 11:50:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV, cs.LG, cs.NE パーマリンク