Efficient Vision-Language Pre-training by Cluster Masking

要約

我々は、学習された表現の品質とトレーニング速度を向上させる、視覚言語対比学習中に画像パッチをマスクするための簡単な戦略を提案します。
トレーニングの各反復中に、生のピクセル強度によって測定された、視覚的に類似した画像パッチのクラスターをランダムにマスクします。
これは、マスクされた視覚構造の単語をコンテキストからのみ予測することをモデルに強制するため、対比トレーニング自体を超えた追加の学習信号を提供します。
また、各画像で使用されるデータ量が削減されるため、トレーニングが高速化されます。
多数のベンチマークで事前トレーニングすることでモデルの有効性を評価し、学習された表現の品質において FLIP などの他のマスキング戦略よりも優れていることがわかりました。

要約(オリジナル)

We propose a simple strategy for masking image patches during visual-language contrastive learning that improves the quality of the learned representations and the training speed. During each iteration of training, we randomly mask clusters of visually similar image patches, as measured by their raw pixel intensities. This provides an extra learning signal, beyond the contrastive training itself, since it forces a model to predict words for masked visual structures solely from context. It also speeds up training by reducing the amount of data used in each image. We evaluate the effectiveness of our model by pre-training on a number of benchmarks, finding that it outperforms other masking strategies, such as FLIP, on the quality of the learned representation.

arxiv情報

著者 Zihao Wei,Zixuan Pan,Andrew Owens
発行日 2024-05-14 17:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク