Temporal Attention Unit: Towards Efficient Spatiotemporal Predictive Learning

要約

時空間予測学習は、過去のフレームから学習することにより、将来のフレームを生成することを目的としています。
この論文では、既存の方法を調査し、時空間予測学習の一般的なフレームワークを提示します。このフレームワークでは、空間エンコーダーとデコーダーがフレーム内の機能をキャプチャし、中側頭回モジュールがフレーム間の相関をキャッチします。
主流の方法は、長期的な時間依存性をキャプチャするために反復ユニットを使用しますが、その比類のないアーキテクチャのために、計算効率が低いという欠点があります。
時間的モジュールを並列化するために、時間的注意をフレーム内静的注意とフレーム間動的注意に分解する時間的注意ユニット(TAU)を提案します。
さらに、平均二乗誤差損失はフレーム内誤差に焦点を当てていますが、フレーム間の変動を考慮に入れるために、新しい微分発散正則化を導入します。
広範な実験は、提案された方法が、導出されたモデルがさまざまな時空間予測ベンチマークで競争力のあるパフォーマンスを達成できることを示しています。

要約(オリジナル)

Spatiotemporal predictive learning aims to generate future frames by learning from historical frames. In this paper, we investigate existing methods and present a general framework of spatiotemporal predictive learning, in which the spatial encoder and decoder capture intra-frame features and the middle temporal module catches inter-frame correlations. While the mainstream methods employ recurrent units to capture long-term temporal dependencies, they suffer from low computational efficiency due to their unparallelizable architectures. To parallelize the temporal module, we propose the Temporal Attention Unit (TAU), which decomposes the temporal attention into intra-frame statical attention and inter-frame dynamical attention. Moreover, while the mean squared error loss focuses on intra-frame errors, we introduce a novel differential divergence regularization to take inter-frame variations into account. Extensive experiments demonstrate that the proposed method enables the derived model to achieve competitive performance on various spatiotemporal prediction benchmarks.

arxiv情報

著者 Cheng Tan,Zhangyang Gao,Siyuan Li,Yongjie Xu,Stan Z. Li
発行日 2022-06-24 07:43:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク