要約
私たちは、時空間マスクされたオートエンコーダー (ST-
MAE) アルゴリズム。
224×224 ピクセルと 448×448 ピクセルの空間解像度でトレーニングされた 2 つの 633M パラメーター モデルをリリースします。
これらのモデルのパフォーマンスをダウンストリームの数ショットのビデオおよび画像認識タスクで評価し、YouTube の 1,330 時間のアクション指向の短いビデオ クリップで事前トレーニングされたモデル (Kinetics-700) と比較します。
HVM-1 モデルは、対応する事前トレーニング データセットの時空間特性間に大きな質的な違いがあるにもかかわらず、下流の評価において Kinetics-700 事前トレーニング モデルに対して競合的に機能します。
また、HVM-1 モデルは、同じデータに対して画像ベースの MAE アルゴリズムで事前トレーニングされたモデルと比較して、より正確で堅牢なオブジェクト表現を学習します。これは、より適切なオブジェクト表現を学習するために、自然ビデオの時間的規則性を予測する学習の潜在的な利点を示しています。
要約(オリジナル)
We introduce Human-like Video Models (HVM-1), large-scale video models pretrained with nearly 5000 hours of curated human-like video data (mostly egocentric, temporally extended, continuous video recordings), using the spatiotemporal masked autoencoder (ST-MAE) algorithm. We release two 633M parameter models trained at spatial resolutions of 224×224 and 448×448 pixels. We evaluate the performance of these models in downstream few-shot video and image recognition tasks and compare them against a model pretrained with 1330 hours of short action-oriented video clips from YouTube (Kinetics-700). HVM-1 models perform competitively against the Kinetics-700 pretrained model in downstream evaluations despite substantial qualitative differences between the spatiotemporal characteristics of the corresponding pretraining datasets. HVM-1 models also learn more accurate and more robust object representations compared to models pretrained with the image-based MAE algorithm on the same data, demonstrating the potential benefits of learning to predict temporal regularities in natural videos for learning better object representations.
arxiv情報
著者 | A. Emin Orhan |
発行日 | 2024-07-25 14:21:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google