Masked Feature Prediction for Self-Supervised Visual Pre-Training

要約

ビデオ モデルの自己教師あり事前トレーニングのためのマスク機能予測 (MaskFeat) を紹介します。
私たちのアプローチは、最初に入力シーケンスの一部をランダムにマスクし、次にマスクされた領域の特徴を予測します。
私たちは 5 種類の特徴を調査し、手作りの特徴記述子である方向勾配ヒストグラム (HOG) が、パフォーマンスと効率の両方の点で特にうまく機能することを発見しました。
HOG でのローカル コントラストの正規化は、良好な結果を得るために不可欠であることがわかります。これは、視覚認識に HOG を使用した以前の研究と一致しています。
私たちのアプローチは、豊富な視覚的知識を学習し、大規模な Transformer ベースのモデルを駆動できます。
追加のモデルの重みや監視を使用せずに、ラベルのないビデオで事前トレーニングされた MaskFeat は、Kinetics-400 で MViT-L で 86.7%、Kinetics-600 で 88.3%、Kinetics-700 で 80.4%、AVA で 39.8 mAP という前例のない結果を達成します。
SSv2 で 75.0%。
MaskFeat はさらに画像入力に一般化され、単一フレームのビデオとして解釈でき、ImageNet で競争力のある結果を得ることができます。

要約(オリジナル)

We present Masked Feature Prediction (MaskFeat) for self-supervised pre-training of video models. Our approach first randomly masks out a portion of the input sequence and then predicts the feature of the masked regions. We study five different types of features and find Histograms of Oriented Gradients (HOG), a hand-crafted feature descriptor, works particularly well in terms of both performance and efficiency. We observe that the local contrast normalization in HOG is essential for good results, which is in line with earlier work using HOG for visual recognition. Our approach can learn abundant visual knowledge and drive large-scale Transformer-based models. Without using extra model weights or supervision, MaskFeat pre-trained on unlabeled videos achieves unprecedented results of 86.7% with MViT-L on Kinetics-400, 88.3% on Kinetics-600, 80.4% on Kinetics-700, 39.8 mAP on AVA, and 75.0% on SSv2. MaskFeat further generalizes to image input, which can be interpreted as a video with a single frame and obtains competitive results on ImageNet.

arxiv情報

著者 Chen Wei,Haoqi Fan,Saining Xie,Chao-Yuan Wu,Alan Yuille,Christoph Feichtenhofer
発行日 2023-01-12 18:45:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク