Self-Training Vision Language BERTs with a Unified Conditional Model


自然言語 BERT は、言語コーパスを使用して自己管理型の方法でトレーニングされます。
自然言語の BERT とは異なり、ビジョン言語の BERT は、ペアになったデータをトレーニングする必要があるため、VL-BERT の事前トレーニングの規模が制限されます。
ラベルのない画像データから VL-BERT をトレーニングできる自己トレーニング アプローチを提案します。
提案された方法は、統一された条件モデル (ゼロショット条件生成を実行できるビジョン言語 BERT モデル) から始まります。
提案されたセルフ トレーニング アプローチと 30 万個のラベルなし追加データのみを使用することで、300 万個の追加画像データでトレーニングされた同様のモデル サイズのモデルと比較して、競争力のある、またはさらに優れたパフォーマンスを得ることができます。


Natural language BERTs are trained with language corpus in a self-supervised manner. Unlike natural language BERTs, vision language BERTs need paired data to train, which restricts the scale of VL-BERT pretraining. We propose a self-training approach that allows training VL-BERTs from unlabeled image data. The proposed method starts with our unified conditional model — a vision language BERT model that can perform zero-shot conditional generation. Given different conditions, the unified conditional model can generate captions, dense captions, and even questions. We use the labeled image data to train a teacher model and use the trained model to generate pseudo captions on unlabeled image data. We then combine the labeled data and pseudo labeled data to train a student model. The process is iterated by putting the student model as a new teacher. By using the proposed self-training approach and only 300k unlabeled extra data, we are able to get competitive or even better performances compared to the models of similar model size trained with 3 million extra image data.


著者 Xiaofeng Yang,Fengmao Lv,Fayao Liu,Guosheng Lin
発行日 2023-01-19 08:10:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.CV パーマリンク