Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision

要約

弱教師あり視覚言語 (V-L) 事前トレーニング (W-VLP) は、整列された画像やキャプションなど、ペア データがほとんどまたはまったくないクロスモーダル アライメントを学習することを目的としています。
視覚的特徴とオブジェクト タグをペアにする最近の W-VLP メソッドは、さまざまな V-L ダウンストリーム タスクで整列ペアでトレーニングされた一部の VLP モデルに匹敵するパフォーマンスを達成するのに役立ちます。
ただし、これはクロスモーダル検索 (XMR) には当てはまりません。
このような W-VLP モデルの学習は、制限されたセマンティクスのオブジェクト タグによって抑制され、偏っていると主張します。
キャプションとペアになった画像を必要としない、W-VLP モデルとして弱い監督を介してトレーニングされる、新しい Visual Vocabulary ベースの Feature Hallucinator (WFH) を使用して、モデル監督のためのペアの V-L データの欠如に対処します。
WFH はテキストから視覚的な幻覚を生成し、元はペアになっていないテキストとペアになり、モダリティ間でより多様な相互作用を可能にします。
経験的に、WFH は一貫して以前の W-VLP 作業を後押しします。
U-VisualBERT (U-VB)、さまざまな V-L タスク、つまり XMR、Visual Question Answering など。特に、recall@{1,5,10} でベンチマークされており、イメージから
Flickr30K と MSCOCO の 2 つの一般的なデータセットでのテキストおよびテキストから画像への検索。
一方、これらの XMR タスクのクロスデータセット一般化テストでは、少なくとも 14.5% 向上しています。
さらに、考慮された他の V-L ダウンストリーム タスクでは、WFH モデルはペアの V-L データでトレーニングされたモデルと同等であり、ペアになっていないデータの有用性が明らかになりました。
これらの結果は、WFH を使用した提案された W-VLP モデルのより大きな一般化を示しています。

要約(オリジナル)

Weakly-supervised vision-language (V-L) pre-training (W-VLP) aims at learning cross-modal alignment with little or no paired data, such as aligned images and captions. Recent W-VLP methods, which pair visual features with object tags, help achieve performances comparable with some VLP models trained with aligned pairs in various V-L downstream tasks. This, however, is not the case in cross-modal retrieval (XMR). We argue that the learning of such a W-VLP model is curbed and biased by the object tags of limited semantics. We address the lack of paired V-L data for model supervision with a novel Visual Vocabulary based Feature Hallucinator (WFH), which is trained via weak supervision as a W-VLP model, not requiring images paired with captions. WFH generates visual hallucinations from texts, which are then paired with the originally unpaired texts, allowing more diverse interactions across modalities. Empirically, WFH consistently boosts the prior W-VLP works, e.g. U-VisualBERT (U-VB), over a variety of V-L tasks, i.e. XMR, Visual Question Answering, etc. Notably, benchmarked with recall@{1,5,10}, it consistently improves U-VB on image-to-text and text-to-image retrieval on two popular datasets Flickr30K and MSCOCO. Meanwhile, it gains by at least 14.5% in cross-dataset generalization tests on these XMR tasks. Moreover, in other V-L downstream tasks considered, our WFH models are on par with models trained with paired V-L data, revealing the utility of unpaired data. These results demonstrate greater generalization of the proposed W-VLP model with WFH.

arxiv情報

著者 Tzu-Jui Julius Wang,Jorma Laaksonen,Tomas Langer,Heikki Arponen,Tom E. Bishop
発行日 2022-10-27 09:12:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク