MIMIC: Masked Image Modeling with Image Correspondences

要約

今日のコンピューター ビジョンにおけるピクセル単位の密な予測タスクの多く (深度推定とセマンティック セグメンテーション) は、事前トレーニングされた画像表現に依存しています。
したがって、効果的な事前トレーニング データセットを厳選することが重要です。
残念ながら、効果的な事前トレーニング データセットはマルチビュー シーンを含むデータセットであり、シミュレートされた環境からの注釈付き 3D メッシュ、点群、およびカメラ パラメーターを使用して厳選されただけです。
私たちは、アノテーションを必要としないデータセットキュレーションメカニズムを提案します。
オープンソースのビデオ データセットと合成 3D 環境から、1.3M の MIMIC-1M と 3.1M のマルチビュー画像ペアの MIMIC-3M の 2 つのデータセットをマイニングします。
さまざまなマスク画像モデリング目標を使用して複数の自己教師ありモデルをトレーニングして、次の結果を示しました。MIMIC-3M でトレーニングされた表現は、深度推定、セマンティック セグメンテーション、表面法線、姿勢推定などの複数の下流タスクでアノテーションを使用してマイニングされた表現よりも優れています。
また、ダウンストリームのトレーニング データが数ショットに制限されている場合、フリーズされた表現よりも優れたパフォーマンスを発揮します。
データセット (MIMIC-3M) が大きくなると、パフォーマンスが大幅に向上します。これは、私たちのキュレーション方法が任意にスケールしてさらに大きなデータセットを生成できるため、有望です。
MIMIC コード、データセット、および事前トレーニングされたモデルは、https://github.com/RAIVNLab/MIMIC でオープンソース化されています。

要約(オリジナル)

Many pixelwise dense prediction tasks-depth estimation and semantic segmentation in computer vision today rely on pretrained image representations. Therefore, curating effective pretraining datasets is vital. Unfortunately, the effective pretraining datasets are those with multi-view scenes and have only been curated using annotated 3D meshes, point clouds, and camera parameters from simulated environments. We propose a dataset-curation mechanism that does not require any annotations. We mine two datasets: MIMIC-1M with 1.3M and MIMIC-3M with 3.1M multi-view image pairs from open-sourced video datasets and from synthetic 3D environments. We train multiple self-supervised models with different masked image modeling objectives to showcase the following findings: Representations trained on MIMIC-3M outperform those mined using annotations on multiple downstream tasks, including depth estimation, semantic segmentation, surface normals, and pose estimation. They also outperform representations that are frozen and when downstream training data is limited to few-shot. Larger dataset (MIMIC-3M) significantly improves performance, which is promising since our curation method can arbitrarily scale to produce even larger datasets. MIMIC code, dataset, and pretrained models are open-sourced at https://github.com/RAIVNLab/MIMIC.

arxiv情報

著者 Kalyani Marathe,Mahtab Bigverdi,Nishat Khan,Tuhin Kundu,Aniruddha Kembhavi,Linda G. Shapiro,Ranjay Krishna
発行日 2023-06-28 16:10:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク