Extending Temporal Data Augmentation for Video Action Recognition

要約

ピクセル空間補強は、その有効性、シンプルさ、低い計算コストのために、多くのディープラーニング分野で人気を集めています。しかし、ほとんどの研究は、時間的にリンクした一連のデータではなく、静止画像のスタックとして入力を扱ってきたため、動画に対するデータ拡張は、まだ未解明の研究トピックのままである。近年、動画像の行動認識において、時間軸を考慮したデータ補強が空間軸を考慮したデータ補強よりも有効であることが示されている。本論文では、空間領域と時間領域の関係を強化し、より深いレベルの摂動を実現するために、これらの手法に対するいくつかの新しい拡張を提案する。本手法は、UCF-101およびHMDB-51データセットにおいて、トップ1およびトップ5で上位のビデオ行動認識を達成する。

要約(オリジナル)

Pixel space augmentation has grown in popularity in many Deep Learning areas, due to its effectiveness, simplicity, and low computational cost. Data augmentation for videos, however, still remains an under-explored research topic, as most works have been treating inputs as stacks of static images rather than temporally linked series of data. Recently, it has been shown that involving the time dimension when designing augmentations can be superior to its spatial-only variants for video action recognition. In this paper, we propose several novel enhancements to these techniques to strengthen the relationship between the spatial and temporal domains and achieve a deeper level of perturbations. The video action recognition results of our techniques outperform their respective variants in Top-1 and Top-5 settings on the UCF-101 and the HMDB-51 datasets.

arxiv情報

著者 Artjoms Gorpincenko,Michal Mackiewicz
発行日 2022-11-09 13:49:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク