要約
CLIPをトレーニングするためのシンプルで効率的な方法であるFast Language-Image Pre-training(FLIP)を紹介します。
私たちの方法は、トレーニング中に画像パッチの大部分をランダムにマスクして削除します。
マスキングにより、同じ実時間でより多くの画像とテキストのペアから学習し、同様のメモリ フットプリントで反復ごとにより多くのサンプルを比較することができます。
これは、精度とトレーニング時間の間の有利なトレードオフにつながります。
4 億の画像とテキストのペアを使用した実験では、FLIP はマスキングなしのベースラインよりも精度と速度の両方を向上させました。
多種多様なダウンストリーム タスクでは、FLIP は、同じデータでトレーニングされた CLIP のカウンターパートよりも圧倒的に優れています。
高速化によって促進され、モデル サイズ、データ サイズ、またはトレーニングの長さを増やすスケーリング動作を調査し、有望な結果と比較を報告します。
私たちの研究が、視覚言語学習のスケーリングに関する将来の研究を促進することを願っています。
要約(オリジナル)
We present Fast Language-Image Pre-training (FLIP), a simple and more efficient method for training CLIP. Our method randomly masks out and removes a large portion of image patches during training. Masking allows us to learn from more image-text pairs given the same wall-clock time and contrast more samples per iteration with similar memory footprint. It leads to a favorable trade-off between accuracy and training time. In our experiments on 400 million image-text pairs, FLIP improves both accuracy and speed over the no-masking baseline. On a large diversity of downstream tasks, FLIP dominantly outperforms the CLIP counterparts trained on the same data. Facilitated by the speedup, we explore the scaling behavior of increasing the model size, data size, or training length, and report encouraging results and comparisons. We hope that our work will foster future research on scaling vision-language learning.
arxiv情報
著者 | Yanghao Li,Haoqi Fan,Ronghang Hu,Christoph Feichtenhofer,Kaiming He |
発行日 | 2022-12-01 18:59:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google