Training Vision-Language Transformers from Captions Alone

要約

Vision-Language Transformersは、人間のラベル(クラスラベル、バウンディングボックスなど)なしで学習することができる。既存の研究は、明示的にバウンディングボックスやパッチを利用するかどうかにかかわらず、視覚的バックボーンは、マルチモーダル言語パイプラインに統合される前に、最初にImageNetクラス予測で訓練されなければならないと仮定しています。我々はこの必要性がないことを示し、この監督を必要としないマスクドオートエンコーダの上に構築された新しいモデルVision-Language from Captions (VLC)を導入する。実際、教師ありオブジェクト分類で事前学習されたパッチベースのビジョン言語変換器ViLTと我々のモデルVLCを比較したところ、我々のアプローチは1.標準ベンチマークでViLTを上回り、2.より解釈可能で直感的なパッチ可視化を提供し、3.注釈付き境界ボックスで学習したROIを用いる多くの大規模モデルと競争できることがわかりました。

要約(オリジナル)

Vision-Language Transformers can be learned without human labels (e.g. class labels, bounding boxes, etc). Existing work, whether explicitly utilizing bounding boxes or patches, assumes that the visual backbone must first be trained on ImageNet class prediction before being integrated into a multimodal linguistic pipeline. We show that this is not necessary and introduce a new model Vision-Language from Captions (VLC) built on top of Masked Auto-Encoders that does not require this supervision. In fact, in a head-to-head comparison between ViLT, the current state-of-the-art patch-based vision-language transformer which is pretrained with supervised object classification, and our model, VLC, we find that our approach 1. outperforms ViLT on standard benchmarks, 2. provides more interpretable and intuitive patch visualizations, and 3. is competitive with many larger models that utilize ROIs trained on annotated bounding-boxes.

arxiv情報

著者 Liangke Gui,Qiuyuan Huang,Subhojit Som,Alex Hauptmann,Yonatan Bisk,Jianfeng Gao
発行日 2023-01-03 17:46:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM パーマリンク