TKN: Transformer-based Keypoint Prediction Network For Real-time Video Prediction

要約

ビデオ予測は、多くのユースケースで大きな可能性を秘めた複雑な時系列予測タスクです。
しかし、従来の方法では、過剰な GPU メモリ消費で過剰な冗長情報を学習する複雑なモデル構造によって引き起こされる予測速度の低下を無視して、精度を重視しすぎていました。
さらに、従来の方法はほとんどの場合、フレームを順次 (フレームごと) に予測するため、高速化が困難です。
その結果、リアルタイムの危険予測や警告などの価値あるユースケースでは、実際に適用できるほど高速な推論速度を実現できません。
したがって、トランスフォーマーベースのキーポイント予測ニューラル ネットワーク (TKN) を提案します。これは、制約付き情報抽出と並列予測スキームを介して予測プロセスを強化する教師なし学習方法です。
TKN は、計算コストを大幅に削減し、他のパフォーマンスを維持しながら、私たちの知る限り、最初のリアルタイム ビデオ予測ソリューションです。
KTH および Human3.6 データセットでの広範な実験では、TKN が既存の方法よりも 11 倍速く予測し、メモリ消費を 17.4% 削減し、平均して最先端の予測パフォーマンスを達成することが実証されています。

要約(オリジナル)

Video prediction is a complex time-series forecasting task with great potential in many use cases. However, conventional methods overemphasize accuracy while ignoring the slow prediction speed caused by complicated model structures that learn too much redundant information with excessive GPU memory consumption. Furthermore, conventional methods mostly predict frames sequentially (frame-by-frame) and thus are hard to accelerate. Consequently, valuable use cases such as real-time danger prediction and warning cannot achieve fast enough inference speed to be applicable in reality. Therefore, we propose a transformer-based keypoint prediction neural network (TKN), an unsupervised learning method that boost the prediction process via constrained information extraction and parallel prediction scheme. TKN is the first real-time video prediction solution to our best knowledge, while significantly reducing computation costs and maintaining other performance. Extensive experiments on KTH and Human3.6 datasets demonstrate that TKN predicts 11 times faster than existing methods while reducing memory consumption by 17.4% and achieving state-of-the-art prediction performance on average.

arxiv情報

著者 Haoran Li,Pengyuan Zhou,Yihang Lin,Yanbin Hao,Haiyong Xie,Yong Liao
発行日 2023-03-20 10:57:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク