Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image Captioning

要約

画像キャプション モデルは近年大幅に進歩しましたが、その大部分は、取得にコストがかかる画像とテキストのペアを含む高品質のデータセットに大きく依存しています。
これまでの作品では、CLIP のクロスモーダル関連付け機能を画像キャプションに利用しており、教師なし設定ではテキスト情報のみに依存していました。
ただし、CLIP テキストと画像の特徴の間にモダリティのギャップが存在するだけでなく、実世界の画像が利用できないためにトレーニングと推論の間にも不一致が生じ、テキストのみのキャプションでのクロスモーダルの調整が妨げられます。
この論文では、合成画像とテキストのペアを組み込むことで、これらの問題に対処する新しい方法を提案します。
事前トレーニングされたテキストから画像へのモデルは、テキスト データに対応する画像を取得するために展開され、生成された画像の擬似特徴は、CLIP 埋め込み空間内の実際の特徴に向けて最適化されます。
さらに、画像の特徴を表すためにテキスト情報が収集され、その結果、さまざまなセマンティクスと橋渡しされたモダリティ ギャップを備えた画像の特徴が得られます。
トレーニングと推論を統合するには、合成画像の特徴が言語デコーダーのトレーニング プレフィックスとして機能し、実際の画像が推論に使用されます。
さらに、モダリティの調整の学習を強化するための支援として、画像内の顕著なオブジェクトが検出されます。
実験結果は、私たちの方法がベンチマーク データセットで最先端のパフォーマンスを達成できることを示しています。

要約(オリジナル)

Although image captioning models have made significant advancements in recent years, the majority of them heavily depend on high-quality datasets containing paired images and texts which are costly to acquire. Previous works leverage the CLIP’s cross-modal association ability for image captioning, relying solely on textual information under unsupervised settings. However, not only does a modality gap exist between CLIP text and image features, but a discrepancy also arises between training and inference due to the unavailability of real-world images, which hinders the cross-modal alignment in text-only captioning. This paper proposes a novel method to address these issues by incorporating synthetic image-text pairs. A pre-trained text-to-image model is deployed to obtain images that correspond to textual data, and the pseudo features of generated images are optimized toward the real ones in the CLIP embedding space. Furthermore, textual information is gathered to represent image features, resulting in the image features with various semantics and the bridged modality gap. To unify training and inference, synthetic image features would serve as the training prefix for the language decoder, while real images are used for inference. Additionally, salient objects in images are detected as assistance to enhance the learning of modality alignment. Experimental results demonstrate that our method obtains the state-of-the-art performance on benchmark datasets.

arxiv情報

著者 Zhiyue Liu,Jinyuan Liu,Fanrong Ma
発行日 2023-12-14 12:39:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク