要約
大規模なクロスモーダル事前学習パラダイムは、ゼロショット分類、検索、画像キャプションなど、様々な下流タスクにおいて、最近、いたるところで成功を収めている。しかし、その成功は、不完全でノイズの多い情報(例えば、間違った内容や無関係な内容)を含むウェブクローリングデータの規模と品質に大きく依存している。既存の研究は、データをきれいにするための手動ルールを設計するか、ノイズの影響を軽減するための補助信号として擬似ターゲットを生成するもので、不正確と不完全の両方の課題に同時に明示的に取り組むものではありません。本論文では、既存データのマイニングのみによってノイズの影響を自動的に軽減するために、ノイズ調和とノイズ補完という2つのスキームによって事前学習を安定化させる原理的なノイズロバスト言語画像事前学習フレームワーク(NLIP)を提案する。まず、ノイズ調和方式では、クロスモーダル変換器の記憶効果に従って各ペアのノイズ確率を推定し、ノイズ適応的な正則化を採用して、様々な程度のクロスモーダルアライメントを調和させることが可能である。第二に、ノイズ補完方式では、テキストの欠落したオブジェクト情報を充実させるために、NLIPは概念条件付きクロスモーダルデコーダを注入し、ノイズのある画像を補完するための意味的に一貫した合成キャプションを取得し、キャプション生成をガイドするために、対応する画像の視覚概念(すなわち、オブジェクト名)を使用します。本論文では、ノイズ調和方式とノイズ補完方式を協調的に最適化することにより、画像-テキスト事前学習時の一般的なノイズの影響をより効率的に軽減することができる。本論文では、26Mのデータを用いて、12のゼロショット分類データセット、MSCOCO画像キャプション、ゼロショット画像テキスト検索タスクにおいて、既存の事前学習済みモデル(CLIP、FILIP、BLIPなど)に対して、我々のNLIPが大幅に性能を向上させることを、広範な実験により示している。
要約(オリジナル)
Large-scale cross-modal pre-training paradigms have recently shown ubiquitous success on a wide range of downstream tasks, e.g., zero-shot classification, retrieval and image captioning. However, their successes highly rely on the scale and quality of web-crawled data that naturally contain incomplete and noisy information (e.g., wrong or irrelevant content). Existing works either design manual rules to clean data or generate pseudo-targets as auxiliary signals for reducing noise impact, which do not explicitly tackle both the incorrect and incomplete challenges simultaneously. In this paper, to automatically mitigate the impact of noise by solely mining over existing data, we propose a principled Noise-robust Language-Image Pre-training framework (NLIP) to stabilize pre-training via two schemes: noise-harmonization and noise-completion. First, in noise-harmonization scheme, NLIP estimates the noise probability of each pair according to the memorization effect of cross-modal transformers, then adopts noise-adaptive regularization to harmonize the cross-modal alignments with varying degrees. Second, in noise-completion scheme, to enrich the missing object information of text, NLIP injects a concept-conditioned cross-modal decoder to obtain semantic-consistent synthetic captions to complete noisy ones, which uses the retrieved visual concepts (i.e., objects’ names) for the corresponding image to guide captioning generation. By collaboratively optimizing noise-harmonization and noise-completion schemes, our NLIP can alleviate the common noise effects during image-text pre-training in a more efficient way. Extensive experiments show the significant performance improvements of our NLIP using only 26M data over existing pre-trained models (e.g., CLIP, FILIP and BLIP) on 12 zero-shot classification datasets, MSCOCO image captioning and zero-shot image-text retrieval tasks.
arxiv情報
著者 | Runhui Huang,Yanxin Long,Jianhua Han,Hang Xu,Xiwen Liang,Chunjing Xu,Xiaodan Liang |
発行日 | 2023-01-04 18:23:26+00:00 |
arxivサイト | arxiv_id(pdf) |