MILAN: Masked Image Pretraining on Language Assisted Representation

要約

自己注意ベースの変換モデルは、過去数年間、多くのコンピューター ビジョン タスクを支配してきました。
それらの優れたモデル品質は、過度に大きなラベル付き画像データセットに大きく依存しています。
ラベル付けされた大規模なデータセットへの依存を減らすために、ラベル付けされていない画像から高品質の転送可能な表現を学習する、再構成ベースのマスクされたオートエンコーダーが人気を集めています。
同じ目的で、最近の弱い教師あり画像の事前トレーニング方法では、画像に付随するテキスト キャプションから言語教師を調査します。
この作業では、MILAN と呼ばれる言語支援表現に関するマスクされた画像の事前トレーニングを提案します。
生のピクセルや低レベルの特徴を予測する代わりに、事前トレーニングの目的は、キャプションの監視を使用して取得した実質的なセマンティック シグナルを使用して画像の特徴を再構築することです。
さらに、再構築ターゲットに対応するために、より効率的なプロンプティング デコーダ アーキテクチャとセマンティック アウェア マスク サンプリング メカニズムを提案します。これにより、事前トレーニング済みモデルの転送パフォーマンスがさらに向上します。
実験結果は、MILAN が以前の作業よりも高い精度を提供することを示しています。
マスクされたオートエンコーダーが 224×224 の入力解像度を持つ ImageNet-1K データセットで事前トレーニングおよび微調整されると、MILAN は ViTB/16 で 85.4% のトップ 1 精度を達成し、以前の最先端技術を 1% 上回っています。
下流のセマンティック セグメンテーション タスクでは、MILAN は ADE20K データセットで ViT-B/16 バックボーンを使用して 52.7 mIoU を達成し、以前のマスクされた事前トレーニングの結果を 4 ポイント上回りました。

要約(オリジナル)

Self-attention based transformer models have been dominating many computer vision tasks in the past few years. Their superb model qualities heavily depend on the excessively large labeled image datasets. In order to reduce the reliance on large labeled datasets, reconstruction based masked autoencoders are gaining popularity, which learn high quality transferable representations from unlabeled images. For the same purpose, recent weakly supervised image pretraining methods explore language supervision from text captions accompanying the images. In this work, we propose masked image pretraining on language assisted representation, dubbed as MILAN. Instead of predicting raw pixels or low level features, our pretraining objective is to reconstruct the image features with substantial semantic signals that are obtained using caption supervision. Moreover, to accommodate our reconstruction target, we propose a more efficient prompting decoder architecture and a semantic aware mask sampling mechanism, which further advance the transfer performance of the pretrained model. Experimental results demonstrate that MILAN delivers higher accuracy than the previous works. When the masked autoencoder is pretrained and finetuned on ImageNet-1K dataset with an input resolution of 224×224, MILAN achieves a top-1 accuracy of 85.4% on ViTB/16, surpassing previous state-of-the-arts by 1%. In the downstream semantic segmentation task, MILAN achieves 52.7 mIoU using ViT-B/16 backbone on ADE20K dataset, outperforming previous masked pretraining results by 4 points.

arxiv情報

著者 Zejiang Hou,Fei Sun,Yen-Kuang Chen,Yuan Xie,Sun-Yuan Kung
発行日 2022-08-15 17:37:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク