要約
過去のフレームから将来のフレームを予測するビデオ予測は、自動運転や天気予報など幅広い用途に利用できます。
既存の最先端の方法は通常、ビデオから空間的、時間的、または時空間的特徴のいずれかを抽出することに重点を置いています。
ネットワーク アーキテクチャの違いにより、焦点となる機能が異なるため、結果として得られるモデルは、一部のビデオ予測タスクでは優れたパフォーマンスを発揮する可能性がありますが、他のタスクではパフォーマンスが低下する可能性があります。
より汎用的なビデオ予測ソリューションに向けて、統合されたエンコーダー/デコーダー フレームワークでこれらの機能を明示的にモデル化し、新しい単純な交互ミキサー (SIAM) を提案します。
SIAM の新規性は、次元交互混合 (DaMi) ブロックの設計にあり、特徴マップの次元を交互に変更することで、空間、時間、および時空間の特徴をモデル化できます。
広範な実験結果は、合成シナリオと現実世界のシナリオの両方をカバーする 4 つのベンチマーク ビデオ データセットに対する提案された SIAM の優れたパフォーマンスを示しています。
要約(オリジナル)
Video prediction, predicting future frames from the previous ones, has broad applications such as autonomous driving and weather forecasting. Existing state-of-the-art methods typically focus on extracting either spatial, temporal, or spatiotemporal features from videos. Different feature focuses, resulting from different network architectures, may make the resultant models excel at some video prediction tasks but perform poorly on others. Towards a more generic video prediction solution, we explicitly model these features in a unified encoder-decoder framework and propose a novel simple alternating Mixer (SIAM). The novelty of SIAM lies in the design of dimension alternating mixing (DaMi) blocks, which can model spatial, temporal, and spatiotemporal features through alternating the dimensions of the feature maps. Extensive experimental results demonstrate the superior performance of the proposed SIAM on four benchmark video datasets covering both synthetic and real-world scenarios.
arxiv情報
| 著者 | Xin Zheng,Ziang Peng,Yuan Cao,Hongming Shan,Junping Zhang | 
| 発行日 | 2024-05-20 16:46:02+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
