要約
限られた過去のデータから将来のビデオ フレームを予測する、ビデオ予測問題に対する新しいアプローチであるモーション グラフを紹介します。
モーション グラフは、ビデオ フレームのパッチを相互接続されたグラフ ノードに変換し、それらの間の時空間関係を包括的に記述します。
この表現は、複雑な動きのパターンを捉えるのに不十分であったり、過剰なメモリ消費に悩まされたりする、画像差分、オプティカル フロー、モーション マトリックスなどの既存の動き表現の制限を克服します。
さらに、モーション グラフを活用したビデオ予測パイプラインを紹介し、大幅なパフォーマンスの向上とコスト削減を示します。
UCF Sports、KITTI、Cityscapes などのさまざまなデータセットでの実験により、モーション グラフの強力な表現能力が強調されています。
特に UCF Sports では、私たちの手法は SOTA 手法と同等かつそれを上回り、モデル サイズが 78% 大幅に削減され、GPU メモリ使用率が 47% 大幅に減少しました。
要約(オリジナル)
We introduce motion graph, a novel approach to the video prediction problem, which predicts future video frames from limited past data. The motion graph transforms patches of video frames into interconnected graph nodes, to comprehensively describe the spatial-temporal relationships among them. This representation overcomes the limitations of existing motion representations such as image differences, optical flow, and motion matrix that either fall short in capturing complex motion patterns or suffer from excessive memory consumption. We further present a video prediction pipeline empowered by motion graph, exhibiting substantial performance improvements and cost reductions. Experiments on various datasets, including UCF Sports, KITTI and Cityscapes, highlight the strong representative ability of motion graph. Especially on UCF Sports, our method matches and outperforms the SOTA methods with a significant reduction in model size by 78% and a substantial decrease in GPU memory utilization by 47%.
arxiv情報
著者 | Yiqi Zhong,Luming Liang,Bohan Tang,Ilya Zharkov,Ulrich Neumann |
発行日 | 2024-10-29 17:39:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google