要約
視覚と言語の事前トレーニングにおける最近の研究では、より優れたきめの細かいマルチモーダル表現を学習するために、物体検出データからの教師付き信号を調査しました。
この研究では、さらに一歩進んで、小規模な視覚的関係データから監視を追加する方法を検討します。
特に、マルチモーダル設定で視覚エンティティを文脈化するための 2 つの事前トレーニング アプローチを提案します。
言語化されたシーングラフを使用して、視覚的な関係のトリプレットを構造化されたキャプションに変換し、それらを画像の追加ビューとして扱います。
マスクされた関係予測を使用すると、視覚的にマスクされたコンテキストからエンティティを関連付けることがさらに促進されます。
大量の Web データで事前トレーニングされた強力なベースラインに適用すると、粗粒タスクと細粒タスクの両方に対するゼロショット評価により、弱く教師付きの関係データからマルチモーダル表現を学習する際のこの手法の有効性が示されます。
要約(オリジナル)
Recent work in vision-and-language pretraining has investigated supervised signals from object detection data to learn better, fine-grained multimodal representations. In this work, we take a step further and explore how we add supervision from small-scale visual relation data. In particular, we propose two pretraining approaches to contextualise visual entities in a multimodal setup. With verbalised scene graphs, we transform visual relation triplets into structured captions, and treat them as additional views of images. With masked relation prediction, we further encourage relating entities from visually masked contexts. When applied to strong baselines pretrained on large amounts of Web data, zero-shot evaluations on both coarse-grained and fine-grained tasks show the efficacy of our methods in learning multimodal representations from weakly-supervised relations data.
arxiv情報
著者 | Emanuele Bugliarello,Aida Nematzadeh,Lisa Anne Hendricks |
発行日 | 2023-05-23 17:27:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google