Multiscale Video Pretraining for Long-Term Activity Forecasting

要約

長期的な活動予測は、人間の活動の変動性と複雑性だけでなく、観察された行動間の時間的関係を理解する必要があるため、特に困難な研究課題です。
最先端の予測アプローチは、高価な人間による注釈による強力な監視に依存しているにもかかわらず、目に見えないデータに対してあまり一般化できないことがよくあります。
この問題を軽減するために、マルチスケール ビデオ事前トレーニング (MVP) を提案します。これは、複数のタイムスケールにわたって将来のビデオ クリップのコンテキスト化された表現を予測することを学習することで、予測のための堅牢な表現を学習する新しい自己教師ありの事前トレーニング アプローチです。
MVP は、ビデオ内のアクションにはマルチスケールの性質があり、アトミックなアクションは通常、短いタイムスケールで発生し、より複雑なアクションはより長いタイムスケールに及ぶ可能性があるという観察に基づいています。
長期的なアクションの予測やビデオの概要予測などの下流の長期予測タスクに関して、MVP と最先端の自己教師ありビデオ学習アプローチを比較します。
Ego4D および Epic-Kitchens-55/100 データセットにわたる包括的な実験により、MVP が最先端の手法を大幅に上回っていることが実証されました。
特に、MVP は既存の方法と比較して、ビデオ概要予測の精度が 20% 以上の相対的なパフォーマンス向上を実現します。

要約(オリジナル)

Long-term activity forecasting is an especially challenging research problem because it requires understanding the temporal relationships between observed actions, as well as the variability and complexity of human activities. Despite relying on strong supervision via expensive human annotations, state-of-the-art forecasting approaches often generalize poorly to unseen data. To alleviate this issue, we propose Multiscale Video Pretraining (MVP), a novel self-supervised pretraining approach that learns robust representations for forecasting by learning to predict contextualized representations of future video clips over multiple timescales. MVP is based on our observation that actions in videos have a multiscale nature, where atomic actions typically occur at a short timescale and more complex actions may span longer timescales. We compare MVP to state-of-the-art self-supervised video learning approaches on downstream long-term forecasting tasks including long-term action anticipation and video summary prediction. Our comprehensive experiments across the Ego4D and Epic-Kitchens-55/100 datasets demonstrate that MVP out-performs state-of-the-art methods by significant margins. Notably, MVP obtains a relative performance gain of over 20% accuracy in video summary forecasting over existing methods.

arxiv情報

著者 Reuben Tan,Matthias De Lange,Michael Iuzzolino,Bryan A. Plummer,Kate Saenko,Karl Ridgeway,Lorenzo Torresani
発行日 2023-07-24 14:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク