要約
時空間予測学習は、過去のフレームに基づいて将来のフレームを予測することで、モデルが空間的および時間的パターンを識別できるようにする自己教師あり学習パラダイムです。
リカレント ニューラル ネットワークを使用して時間的パターンをキャプチャする従来の方法は、その有効性が証明されていますが、システムの複雑さと計算量が高くなります。
畳み込みは、より効率的な代替手段を提供する可能性がありますが、以前のすべてのフレームを平等に扱うという特性によって制限され、その結果、時間的特徴付けが不十分になり、また、その局所的な受容野によって、フレーム間の離れた相関を捕捉する能力が制限されます。
この論文では、学習可能な層としてチャネル方向および深さ方向の畳み込みのみに依存する、時空間学習のための新しい方法である STLight を提案します。
STLight は、単一の畳み込みを使用して両方のタイプの特徴を混合して包括的な時空間パッチ表現を作成し、空間次元と時間次元を一緒に再配置することで、従来の畳み込みアプローチの制限を克服します。
この表現は純粋な畳み込みフレームワークで処理され、近くのパッチと遠くのパッチ間の相互作用に同時に焦点を当てることができ、その後、予測フレームの効率的な再構築が可能になります。
当社のアーキテクチャは、さまざまなデータセットや設定にわたる STL ベンチマークで最先端のパフォーマンスを達成すると同時に、パラメーターと計算 FLOP の観点から計算効率を大幅に向上させます。
コードは公開されています
要約(オリジナル)
Spatio-Temporal predictive Learning is a self-supervised learning paradigm that enables models to identify spatial and temporal patterns by predicting future frames based on past frames. Traditional methods, which use recurrent neural networks to capture temporal patterns, have proven their effectiveness but come with high system complexity and computational demand. Convolutions could offer a more efficient alternative but are limited by their characteristic of treating all previous frames equally, resulting in poor temporal characterization, and by their local receptive field, limiting the capacity to capture distant correlations among frames. In this paper, we propose STLight, a novel method for spatio-temporal learning that relies solely on channel-wise and depth-wise convolutions as learnable layers. STLight overcomes the limitations of traditional convolutional approaches by rearranging spatial and temporal dimensions together, using a single convolution to mix both types of features into a comprehensive spatio-temporal patch representation. This representation is then processed in a purely convolutional framework, capable of focusing simultaneously on the interaction among near and distant patches, and subsequently allowing for efficient reconstruction of the predicted frames. Our architecture achieves state-of-the-art performance on STL benchmarks across different datasets and settings, while significantly improving computational efficiency in terms of parameters and computational FLOPs. The code is publicly available
arxiv情報
著者 | Andrea Alfarano,Alberto Alfarano,Linda Friso,Andrea Bacciu,Irene Amerini,Fabrizio Silvestri |
発行日 | 2024-11-15 13:53:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google