MaCLR: Motion-aware Contrastive Learning of Representations for Videos

要約

視覚および運動モダリティから学習するクロスモーダル自己監視ビデオ表現を明示的に実行するための新しい方法であるMaCLRを紹介します。
主にRGB入力から暗黙的にモーションキューを学習することに焦点を当てた以前のビデオ表現学習方法と比較して、MaCLRは、モーションパスウェイとビジュアルパスウェイの間のクロスモーダル学習目標で、RGBビデオクリップの標準的な対照的な学習目標を強化します。
MaCLR法で学習した表現は、前景の動きの領域に焦点を当てているため、下流のタスクによりよく一般化されることを示します。
これを実証するために、アクション認識とアクション検出の両方について5つのデータセットでMaCLRを評価し、すべてのデータセットで最先端の自己監視パフォーマンスを実証します。
さらに、MaCLR表現は、UCF101およびHMDB51アクション認識の完全な監視で学習された表現と同じくらい効果的であり、VidSituおよびSSv2でのアクション認識、およびAVAでのアクション検出の監視された表現よりも優れていることを示します。

要約(オリジナル)

We present MaCLR, a novel method to explicitly perform cross-modal self-supervised video representations learning from visual and motion modalities. Compared to previous video representation learning methods that mostly focus on learning motion cues implicitly from RGB inputs, MaCLR enriches standard contrastive learning objectives for RGB video clips with a cross-modal learning objective between a Motion pathway and a Visual pathway. We show that the representation learned with our MaCLR method focuses more on foreground motion regions and thus generalizes better to downstream tasks. To demonstrate this, we evaluate MaCLR on five datasets for both action recognition and action detection, and demonstrate state-of-the-art self-supervised performance on all datasets. Furthermore, we show that MaCLR representation can be as effective as representations learned with full supervision on UCF101 and HMDB51 action recognition, and even outperform the supervised representation for action recognition on VidSitu and SSv2, and action detection on AVA.

arxiv情報

著者 Fanyi Xiao,Joseph Tighe,Davide Modolo
発行日 2022-07-20 16:38:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク