Pre-training image-language transformers for open-vocabulary tasks

要約

我々は、多様なタスクの混合に基づく、視覚と言語変換モデルのための事前学習アプローチを提示する。我々は、事前学習において、追加の監視を必要としない画像-テキストキャプションデータの使用と、モデルを事前学習するためのオブジェクト認識戦略の両方を探求している。我々は、視覚的質問応答、視覚的含意、キャプションなど、多くのテキスト生成視覚+言語タスクでこの方法を評価し、標準的な事前学習方法よりも大きな利得を実証する。

要約(オリジナル)

We present a pre-training approach for vision and language transformer models, which is based on a mixture of diverse tasks. We explore both the use of image-text captioning data in pre-training, which does not need additional supervision, as well as object-aware strategies to pre-train the model. We evaluate the method on a number of textgenerative vision+language tasks, such as Visual Question Answering, visual entailment and captioning, and demonstrate large gains over standard pre-training methods.

arxiv情報

著者 AJ Piergiovanni,Weicheng Kuo,Anelia Angelova
発行日 2022-09-09 16:11:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク