Semi-Supervised Image Captioning by Adversarially Propagating Labeled Data

要約

画像キャプションモデルの一般化を改善するために、新しいデータ効率の良い半教師付きフレームワークを提示します。
大規模なラベル付き画像キャプション データセットの構築は、労力、時間、コストの点で費用のかかる作業です。
すべてのトレーニング サンプルに手動で注釈を付けるのとは対照的に、ユニモーダル データセットを個別に収集することは、たとえば大規模な画像データセットと文データセットなど、非常に簡単です。
このような大量のペアになっていない画像とキャプション データを、それらを関連付けることを学習することによって、標準のペア データに活用します。
この目的のために、提案された半教師付き学習方法は、画像とキャプションの共同分布が学習される敵対的学習方式で、対になっていないサンプルに疑似ラベルを割り当てます。
私たちの方法は、対になったデータから学習し、対になっていないデータを段階的に関連付けるようにキャプション作成者をトレーニングします。
このアプローチは、アウト オブ タスク データ (つまり、ターゲット タスクがペアになっていないデータとは異なるリレーショナル キャプション) や Web クロールされたデータなどの困難なシナリオでも、顕著なパフォーマンスの向上を示します。
また、提案された方法が理論的に十分に動機付けられており、好ましいグローバル最適特性を持っていることも示しています。
(1) 画像ベースおよび (2) 高密度領域ベースのキャプション データセットの両方に関する広範かつ包括的な経験的結果と、それに続くほとんど対になっていない COCO データセットの包括的な分析は、競合するものと比較して、対になっていないデータを使用した半教師あり学習方法の一貫した有効性を示しています。
メソッド。

要約(オリジナル)

We present a novel data-efficient semi-supervised framework to improve the generalization of image captioning models. Constructing a large-scale labeled image captioning dataset is an expensive task in terms of labor, time, and cost. In contrast to manually annotating all the training samples, separately collecting uni-modal datasets is immensely easier, e.g., a large-scale image dataset and a sentence dataset. We leverage such massive unpaired image and caption data upon standard paired data by learning to associate them. To this end, our proposed semi-supervised learning method assigns pseudo-labels to unpaired samples in an adversarial learning fashion, where the joint distribution of image and caption is learned. Our method trains a captioner to learn from a paired data and to progressively associate unpaired data. This approach shows noticeable performance improvement even in challenging scenarios including out-of-task data (i.e., relational captioning, where the target task is different from the unpaired data) and web-crawled data. We also show that our proposed method is theoretically well-motivated and has a favorable global optimal property. Our extensive and comprehensive empirical results both on (1) image-based and (2) dense region-based captioning datasets followed by comprehensive analysis on the scarcely-paired COCO dataset demonstrate the consistent effectiveness of our semisupervised learning method with unpaired data compared to competing methods.

arxiv情報

著者 Dong-Jin Kim,Tae-Hyun Oh,Jinsoo Choi,In So Kweon
発行日 2023-01-26 15:25:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク