要約
我々は、ノイズのあるエンティティの注釈付き画像から画像表現を学習するように設計された新しい視覚基盤モデルである MOFI を紹介します。
MOFI は、($i$) 事前トレーニング データと ($ii$) トレーニング レシピという 2 つの重要な側面において以前の研究とは異なります。
データに関しては、ノイズの多い画像とテキストのペアから画像にエンティティ ラベルを自動的に割り当てる新しいアプローチを導入します。
私たちのアプローチには、名前付きエンティティ認識モデルを使用して代替テキストからエンティティを抽出し、次に CLIP モデルを使用してペア画像のラベルとして正しいエンティティを選択することが含まれます。
このアプローチはシンプルで、コストのかかる人間による注釈を必要とせず、Web からマイニングされた数十億の画像とテキストのペアまで簡単にスケールアップできます。
この方法を通じて、私たちは、10 億の画像と 200 万の異なるエンティティを備えた新しい大規模データセットである Image-to-Entities (I2E) を作成し、現実の豊富なビジュアル コンセプトをカバーしました。
I2E データセットに基づいて、教師あり事前トレーニング、対照的事前トレーニング、マルチタスク学習などのさまざまなトレーニング レシピを研究します。
対照的な事前トレーニングでは、エンティティ名を自由形式のテキストとして扱い、エンティティの説明でエンティティ名をさらに充実させます。
実験の結果、大規模で粒度の細かいエンティティ ラベルを使用した教師あり事前トレーニングは画像検索タスクに非常に効果的であり、マルチタスク トレーニングによりパフォーマンスがさらに向上することが示されています。
最終的な MOFI モデルは、困難な GPR1200 データセットで 86.66% の mAP を達成し、OpenAI の CLIP モデルによる以前の最先端のパフォーマンス 72.19% を上回りました。
ゼロショットおよび線形プローブ画像分類に関するさらなる実験では、MOFI が元の画像テキスト データでトレーニングされた CLIP モデルよりも優れたパフォーマンスを示すことも示され、強力な画像表現の学習における I2E データセットの有効性が実証されました。
要約(オリジナル)
We present MOFI, a new vision foundation model designed to learn image representations from noisy entity annotated images. MOFI differs from previous work in two key aspects: ($i$) pre-training data, and ($ii$) training recipe. Regarding data, we introduce a new approach to automatically assign entity labels to images from noisy image-text pairs. Our approach involves employing a named entity recognition model to extract entities from the alt-text, and then using a CLIP model to select the correct entities as labels of the paired image. The approach is simple, does not require costly human annotation, and can be readily scaled up to billions of image-text pairs mined from the web. Through this method, we have created Image-to-Entities (I2E), a new large-scale dataset with 1 billion images and 2 million distinct entities, covering rich visual concepts in the wild. Building upon the I2E dataset, we study different training recipes, including supervised pre-training, contrastive pre-training, and multi-task learning. For constrastive pre-training, we treat entity names as free-form text, and further enrich them with entity descriptions. Experiments show that supervised pre-training with large-scale fine-grained entity labels is highly effective for image retrieval tasks, and multi-task training further improves the performance. The final MOFI model achieves 86.66% mAP on the challenging GPR1200 dataset, surpassing the previous state-of-the-art performance of 72.19% from OpenAI’s CLIP model. Further experiments on zero-shot and linear probe image classification also show that MOFI outperforms a CLIP model trained on the original image-text data, demonstrating the effectiveness of the I2E dataset in learning strong image representations.
arxiv情報
著者 | Wentao Wu,Aleksei Timofeev,Chen Chen,Bowen Zhang,Kun Duan,Shuangning Liu,Yantao Zheng,Jon Shlens,Xianzhi Du,Zhe Gan,Yinfei Yang |
発行日 | 2023-06-13 17:51:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google