SVFormer: Semi-supervised Video Transformer for Action Recognition

要約

タイトル:SVFormer:アクション認識のための半教師ありビデオトランスフォーマー

要約:
– 半教師ありアクション認識は、ビデオアノテーションの高コストのために難しいが重要なタスクです。
– 既存の手法は主に畳み込みニューラルネットワークを使用していますが、最近の革新的なビジョントランスフォーマーモデルはあまり探求されていません。
– この論文では、TransformerモデルをSSL設定下でアクション認識に使用することを調査しました。
– そのために、我々は、擬似ラベル付けフレームワーク(つまり、EMA-Teacher)を採用したSVFormerを紹介しました。これにより、未ラベルのビデオサンプルを扱うことができます。
– 半教師あり画像分類には効果的な多数のデータ拡張があるが、ビデオ認識には限られた結果しか生じない。そこで、ビデオクリップをマスクで混ぜ合わせ、一貫したマスクされたトークンを時系列軸上に追跡する新しい拡張戦略、Tube TokenMixを紹介した。
– さらに、ビデオ内の複雑な時空変動をカバーするための時空歪曲拡張を提案し、クリップ内の選択したフレームをさまざまな時間的期間に伸縮させます。
– Kinetics-400、UCF-101、およびHMDB-51の3つのデータセットでの詳細な実験により、SVFormerの優位性が確認されました。特に、SVFormerはKinetics-400の1%のラベリング率でより少ないトレーニングエポックで、最先端に比べて31.5%優れています。
– この論文により、ビジョントランスフォーマーネットワークを用いた半教師ありアクション認識の将来的な探索を促進し、強力なベンチマークとして役立てることができると期待されます。

要約(オリジナル)

Semi-supervised action recognition is a challenging but critical task due to the high cost of video annotations. Existing approaches mainly use convolutional neural networks, yet current revolutionary vision transformer models have been less explored. In this paper, we investigate the use of transformer models under the SSL setting for action recognition. To this end, we introduce SVFormer, which adopts a steady pseudo-labeling framework (ie, EMA-Teacher) to cope with unlabeled video samples. While a wide range of data augmentations have been shown effective for semi-supervised image classification, they generally produce limited results for video recognition. We therefore introduce a novel augmentation strategy, Tube TokenMix, tailored for video data where video clips are mixed via a mask with consistent masked tokens over the temporal axis. In addition, we propose a temporal warping augmentation to cover the complex temporal variation in videos, which stretches selected frames to various temporal durations in the clip. Extensive experiments on three datasets Kinetics-400, UCF-101, and HMDB-51 verify the advantage of SVFormer. In particular, SVFormer outperforms the state-of-the-art by 31.5% with fewer training epochs under the 1% labeling rate of Kinetics-400. Our method can hopefully serve as a strong benchmark and encourage future search on semi-supervised action recognition with Transformer networks.

arxiv情報

著者 Zhen Xing,Qi Dai,Han Hu,Jingjing Chen,Zuxuan Wu,Yu-Gang Jiang
発行日 2023-04-06 12:48:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク