Learning Representational Invariances for Data-Efficient Action Recognition

要約

データ拡張は、ラベル付けされたデータが不足している場合に画像分類を改善するためのユビキタスな手法です。
モデル予測が多様なデータ拡張に対して不変になるように制約することで、望ましい表現上の不変性 (たとえば、測光変動に対する不変性) が効果的にモデルに注入され、精度の向上に役立ちます。
画像データと比較すると、ビデオの外観の変化は、時間的な次元が追加されているため、はるかに複雑です。
しかし、ビデオのデータ拡張方法はまだ調査されていません。
このホワイト ペーパーでは、測光、幾何学的、時間的、および俳優/シーンの拡張など、さまざまなビデオの不変性をキャプチャするさまざまなデータ拡張戦略を調査します。
既存の半教師あり学習フレームワークと統合すると、データ拡張戦略が低ラベル体制の Kinetics-100/400、Mini-Something-v2、UCF-101、および HMDB-51 データセットで有望なパフォーマンスにつながることを示します
.
また、完全に監視された設定でデータ拡張戦略を検証し、パフォーマンスの向上を実証します。

要約(オリジナル)

Data augmentation is a ubiquitous technique for improving image classification when labeled data is scarce. Constraining the model predictions to be invariant to diverse data augmentations effectively injects the desired representational invariances to the model (e.g., invariance to photometric variations) and helps improve accuracy. Compared to image data, the appearance variations in videos are far more complex due to the additional temporal dimension. Yet, data augmentation methods for videos remain under-explored. This paper investigates various data augmentation strategies that capture different video invariances, including photometric, geometric, temporal, and actor/scene augmentations. When integrated with existing semi-supervised learning frameworks, we show that our data augmentation strategy leads to promising performance on the Kinetics-100/400, Mini-Something-v2, UCF-101, and HMDB-51 datasets in the low-label regime. We also validate our data augmentation strategy in the fully supervised setting and demonstrate improved performance.

arxiv情報

著者 Yuliang Zou,Jinwoo Choi,Qitong Wang,Jia-Bin Huang
発行日 2022-11-18 06:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク