MOFO: MOtion FOcused Self-Supervision for Video Understanding

要約

自己教師あり学習 (SSL) 技術は、最近、ラベルのないビデオからの視覚表現の学習において優れた結果を生み出しています。
動作認識のための教師あり学習技術における動作の重要性にもかかわらず、SSL 手法ではビデオ内の動作情報が明示的に考慮されていないことがよくあります。
この問題に対処するために、私たちはアクション認識のためにビデオの動き領域に焦点を当てて表現学習を行う新しい SSL 手法である MOFO (MOtion FOcused) を提案します。
MOFO はビデオ内の動きのある領域を自動的に検出し、これらを使用して自己監視タスクをガイドします。
入力シーケンスの大部分をランダムにマスクするマスクされたオートエンコーダーを使用します。
モーション領域の内側の指定された割合を強制的にマスクし、残りを外側からマスクします。
さらにモーション情報を微調整ステップに組み込んで、下流のタスクでのモーションを強調します。
私たちは、モーションに焦点を当てたイノベーションにより、アクション認識のための現在主流の SSL 方式 (VideoMAE) のパフォーマンスを大幅に向上できることを実証します。
私たちの手法は、Epic-Kitchens の動詞、名詞、動作の分類でそれぞれ +2.6%、+2.1%、+1.3% の精度を達成し、Something で +4.7% の精度を達成することで、最近の自己監視型ビジョン トランスフォーマー (ViT)、VideoMAE を改善します。
-Something V2 アクション分類。
私たちが提案したアプローチは、アクション認識のための現在の SSL メソッドのパフォーマンスを大幅に向上させ、SSL でモーションを明示的にエンコードすることの重要性を示しています。

要約(オリジナル)

Self-supervised learning (SSL) techniques have recently produced outstanding results in learning visual representations from unlabeled videos. Despite the importance of motion in supervised learning techniques for action recognition, SSL methods often do not explicitly consider motion information in videos. To address this issue, we propose MOFO (MOtion FOcused), a novel SSL method for focusing representation learning on the motion area of a video, for action recognition. MOFO automatically detects motion areas in videos and uses these to guide the self-supervision task. We use a masked autoencoder which randomly masks out a high proportion of the input sequence; we force a specified percentage of the inside of the motion area to be masked and the remainder from outside. We further incorporate motion information into the finetuning step to emphasise motion in the downstream task. We demonstrate that our motion-focused innovations can significantly boost the performance of the currently leading SSL method (VideoMAE) for action recognition. Our method improves the recent self-supervised Vision Transformer (ViT), VideoMAE, by achieving +2.6%, +2.1%, +1.3% accuracy on Epic-Kitchens verb, noun and action classification, respectively, and +4.7% accuracy on Something-Something V2 action classification. Our proposed approach significantly improves the performance of the current SSL method for action recognition, indicating the importance of explicitly encoding motion in SSL.

arxiv情報

著者 Mona Ahmadian,Frank Guerin,Andrew Gilbert
発行日 2023-11-01 15:30:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク