Self-Training Vision Language BERTs with a Unified Conditional Model

要約

自然言語 BERT は、言語コーパスを使用して自己管理型の方法でトレーニングされます。
自然言語の BERT とは異なり、ビジョン言語の BERT は、ペアになったデータをトレーニングする必要があるため、VL-BERT の事前トレーニングの規模が制限されます。
ラベルのない画像データから VL-BERT をトレーニングできる自己トレーニング アプローチを提案します。
提案された方法は、統一された条件モデル (ゼロショット条件生成を実行できるビジョン言語 BERT モデル) から始まります。
さまざまな条件が与えられた場合、統一された条件付きモデルは、キャプション、密なキャプション、さらには質問を生成できます。
ラベル付けされた画像データを使用して教師モデルをトレーニングし、トレーニングされたモデルを使用して、ラベル付けされていない画像データに疑似キャプションを生成します。
次に、ラベル付けされたデータと疑似ラベル付けされたデータを組み合わせて、学生モデルをトレーニングします。
このプロセスは、生徒モデルを新しい教師として配置することによって繰り返されます。
提案されたセルフ トレーニング アプローチと 30 万個のラベルなし追加データのみを使用することで、300 万個の追加画像データでトレーニングされた同様のモデル サイズのモデルと比較して、競争力のある、またはさらに優れたパフォーマンスを得ることができます。

要約(オリジナル)

Natural language BERTs are trained with language corpus in a self-supervised manner. Unlike natural language BERTs, vision language BERTs need paired data to train, which restricts the scale of VL-BERT pretraining. We propose a self-training approach that allows training VL-BERTs from unlabeled image data. The proposed method starts with our unified conditional model — a vision language BERT model that can perform zero-shot conditional generation. Given different conditions, the unified conditional model can generate captions, dense captions, and even questions. We use the labeled image data to train a teacher model and use the trained model to generate pseudo captions on unlabeled image data. We then combine the labeled data and pseudo labeled data to train a student model. The process is iterated by putting the student model as a new teacher. By using the proposed self-training approach and only 300k unlabeled extra data, we are able to get competitive or even better performances compared to the models of similar model size trained with 3 million extra image data.

arxiv情報

著者 Xiaofeng Yang,Fengmao Lv,Fayao Liu,Guosheng Lin
発行日 2023-01-19 08:10:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク