MSPred: Video Prediction at Multiple Spatio-Temporal Scales with Hierarchical Recurrent Networks

要約

自律システムは、現在の環境を理解するだけでなく、例えば、撮影したカメラフレームから、過去の状態を条件として将来の行動を予測することができる必要がある。しかし、既存のモデルは、主に短い時間軸のビデオフレームを予測することに重点を置いており、長期的な行動計画にはあまり適していない。我々は、異なる時空間スケールで異なる粒度の結果を同時に予測することができる新しい映像予測モデル、マルチスケール階層予測(MSPred)を提案する。MSPredは、空間的・時間的ダウンサンプリングを組み合わせることで、動画像フレーム予測に匹敵する性能を保ちつつ、人物のポーズや位置などの抽象的表現を長い時間軸で効率的に予測することが可能である。我々の実験では、MSPredはビンピッキングと行動認識のデータセットにおいて、将来のビデオフレームと高レベルの表現(例えばキーポイントやセマンティクス)を正確に予測し、将来のフレーム予測のための一般的なアプローチを常に凌駕することを実証する。さらに、MSPredの異なるモジュールと設計上の選択を切除し、異なる空間的・時間的粒度の特徴を組み合わせることで、優れた性能につながることを実験的に検証している。我々の実験を再現するコードとモデルは、https://github.com/AIS-Bonn/MSPred にある。

要約(オリジナル)

Autonomous systems not only need to understand their current environment, but should also be able to predict future actions conditioned on past states, for instance based on captured camera frames. However, existing models mainly focus on forecasting future video frames for short time-horizons, hence being of limited use for long-term action planning. We propose Multi-Scale Hierarchical Prediction (MSPred), a novel video prediction model able to simultaneously forecast future possible outcomes of different levels of granularity at different spatio-temporal scales. By combining spatial and temporal downsampling, MSPred efficiently predicts abstract representations such as human poses or locations over long time horizons, while still maintaining a competitive performance for video frame prediction. In our experiments, we demonstrate that MSPred accurately predicts future video frames as well as high-level representations (e.g. keypoints or semantics) on bin-picking and action recognition datasets, while consistently outperforming popular approaches for future frame prediction. Furthermore, we ablate different modules and design choices in MSPred, experimentally validating that combining features of different spatial and temporal granularity leads to a superior performance. Code and models to reproduce our experiments can be found in https://github.com/AIS-Bonn/MSPred.

arxiv情報

著者 Angel Villar-Corrales,Ani Karapetyan,Andreas Boltres,Sven Behnke
発行日 2022-11-09 10:35:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク