Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining

要約

視覚と言語の事前トレーニングにおける最近の研究では、より優れたきめの細かいマルチモーダル表現を学習するために、物体検出データからの教師付き信号を調査しました。
この研究では、さらに一歩進んで、小規模な視覚的関係データから監視を利用する方法を検討します。
特に、マルチモーダル設定で視覚エンティティを文脈化するための 2 つの事前トレーニング アプローチを提案します。
言語化されたシーングラフを使用して、視覚的な関係のトリプレットを構造化されたキャプションに変換し、追加の画像説明として扱います。
マスクされた関係予測を使用すると、視覚的にマスクされたコンテキストを使用して画像領域からエンティティを関連付けることがさらに促進されます。
大量の Web データで事前トレーニングされた強力なベースラインに適用すると、粗粒タスクと細粒タスクの両方に対するゼロショット評価により、弱く教師付きの関係データからマルチモーダル表現を学習する際のこの手法の有効性が示されます。

要約(オリジナル)

Recent work in vision-and-language pretraining has investigated supervised signals from object detection data to learn better, fine-grained multimodal representations. In this work, we take a step further and explore how we can tap into supervision from small-scale visual relation data. In particular, we propose two pretraining approaches to contextualise visual entities in a multimodal setup. With verbalised scene graphs, we transform visual relation triplets into structured captions, and treat them as additional image descriptions. With masked relation prediction, we further encourage relating entities from image regions with visually masked contexts. When applied to strong baselines pretrained on large amounts of Web data, zero-shot evaluations on both coarse-grained and fine-grained tasks show the efficacy of our methods in learning multimodal representations from weakly-supervised relations data.

arxiv情報

著者 Emanuele Bugliarello,Aida Nematzadeh,Lisa Anne Hendricks
発行日 2023-10-19 17:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク