要約
オブジェクト アノテーションに基づくきめの細かい監視は、視覚と言語の事前トレーニング (VLP) に広く使用されています。
ただし、実際のアプリケーション シナリオでは、整列されたマルチモーダル データは通常、イメージ キャプション形式であり、大まかな監視のみを提供します。
オブジェクト アノテーションを収集し、さまざまなシナリオでオブジェクト アノテーションの事前抽出機能を構築するには、コストがかかります。
この論文では、置換の観点から、オブジェクト注釈なしのきめの細かい自己監視信号を提案します。
最初に、トークン レベルの監視を提供する同音異義語文書き換え (HSR) アルゴリズムを提案します。
このアルゴリズムは、キャプションの動詞/名詞/形容詞/数量詞を WordNet の同音異義語に置き換えます。
それに対応して、トークンレベルの監視を活用するための代替の視覚言語モデリング (RVLM) フレームワークを提案します。
2 つの置換モデリング タスク、すなわち置換言語対照 (RLC) と置換言語モデリング (RLM) は、きめの細かいアライメントを学習するために提案されています。
いくつかの下流タスクに関する広範な実験により、提案された方法の優れたパフォーマンスが実証されています。
要約(オリジナル)
Fine-grained supervision based on object annotations has been widely used for vision and language pre-training (VLP). However, in real-world application scenarios, aligned multi-modal data is usually in the image-caption format, which only provides coarse-grained supervision. It is cost-expensive to collect object annotations and build object annotation pre-extractor for different scenarios. In this paper, we propose a fine-grained self-supervision signal without object annotations from a replacement perspective. First, we propose a homonym sentence rewriting (HSR) algorithm to provide token-level supervision. The algorithm replaces a verb/noun/adjective/quantifier word of the caption with its homonyms from WordNet. Correspondingly, we propose a replacement vision-language modeling (RVLM) framework to exploit the token-level supervision. Two replaced modeling tasks, i.e., replaced language contrastive (RLC) and replaced language modeling (RLM), are proposed to learn the fine-grained alignment. Extensive experiments on several downstream tasks demonstrate the superior performance of the proposed method.
arxiv情報
著者 | Lisai Zhang,Qingcai Chen,Zhijian Chen,Yunpeng Han,Zhonghua Li,Zhao Cao |
発行日 | 2023-03-09 15:01:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google