Self-supervised video pretraining yields strong image representations

要約

動画には静止画像よりもはるかに多くの情報が含まれており、視覚世界の豊かな表現を学習する可能性があります。
しかし、画像データセットの事前トレーニングは、空間情報をキャプチャする表現を学習するための主要なパラダイムであり続けており、以前のビデオ事前トレーニングの試みは画像理解タスクには不十分でした。
この作業では、ビデオ フレームの動的な進化からの画像表現の自己教師あり学習を再検討します。
そのために、ビデオと画像のデータセット間のドメインの不一致に対処するデータセットのキュレーション手順を提案し、自然なビデオに存在する複雑な変換を処理する対照的な学習フレームワークを開発します。
VITO と呼ばれる、ビデオから画像表現への知識を抽出するためのこの単純なパラダイムは、さまざまな画像ベースの転移学習タスクで驚くほどうまく機能します。
初めて、ビデオで事前トレーニングされたモデルは、PASCAL と ADE20K でのセマンティック セグメンテーションに関する ImageNet 事前トレーニング、および COCO と LVIS でのオブジェクト検出とのギャップを埋め、ビデオ事前トレーニングが画像表現を学習するための新しいデフォルトになる可能性があることを示唆しています。

要約(オリジナル)

Videos contain far more information than still images and hold the potential for learning rich representations of the visual world. Yet, pretraining on image datasets has remained the dominant paradigm for learning representations that capture spatial information, and previous attempts at video pretraining have fallen short on image understanding tasks. In this work we revisit self-supervised learning of image representations from the dynamic evolution of video frames. To that end, we propose a dataset curation procedure that addresses the domain mismatch between video and image datasets, and develop a contrastive learning framework which handles the complex transformations present in natural videos. This simple paradigm for distilling knowledge from videos to image representations, called VITO, performs surprisingly well on a variety of image-based transfer learning tasks. For the first time, our video-pretrained model closes the gap with ImageNet pretraining on semantic segmentation on PASCAL and ADE20K and object detection on COCO and LVIS, suggesting that video-pretraining could become the new default for learning image representations.

arxiv情報

著者 Nikhil Parthasarathy,S. M. Ali Eslami,João Carreira,Olivier J. Hénaff
発行日 2022-10-12 17:30:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク