ADS-Cap: A Framework for Accurate and Diverse Stylized Captioning with Unpaired Stylistic Corpora

要約

ペアになっていない文体コーパスを使用して、特定の言語スタイルを備えた視覚的に根拠のある画像キャプションを生成することは、特にさまざまな文体パターンを持つ定型化されたキャプションが期待されるため、困難な作業です。
この論文では、正確で多様な様式化されたキャプション (ADS-Cap) を生成するための新しいフレームワークを提案します。
当社の ADS-Cap は、まず対照的な学習モジュールを使用して画像とテキストの特徴を調整します。これにより、トレーニング プロセス中に、対になった事実コーパスと対になっていない文体コーパスが統合されます。
次に、条件付き変分オートエンコーダーを使用して、潜在空間内の多様な文体パターンを自動的に記憶し、サンプリングを通じて多様性を強化します。
また、スタイル固有のキャプションをフィルタリングすることでスタイルの精度を高める、シンプルだが効果的な再チェック モジュールも設計しています。
広く使用されている 2 つの様式化された画像キャプション データセットに関する実験結果は、画像との一貫性、スタイルの精度、多様性に関して、ADS-Cap がさまざまなベースラインと比較して優れたパフォーマンスを達成していることを示しています。
最終的に、私たちの手法の有効性を理解するために広範な分析を実施します。
私たちのコードは https://github.com/njucckevin/ADS-Cap で入手できます。

要約(オリジナル)

Generating visually grounded image captions with specific linguistic styles using unpaired stylistic corpora is a challenging task, especially since we expect stylized captions with a wide variety of stylistic patterns. In this paper, we propose a novel framework to generate Accurate and Diverse Stylized Captions (ADS-Cap). Our ADS-Cap first uses a contrastive learning module to align the image and text features, which unifies paired factual and unpaired stylistic corpora during the training process. A conditional variational auto-encoder is then used to automatically memorize diverse stylistic patterns in latent space and enhance diversity through sampling. We also design a simple but effective recheck module to boost style accuracy by filtering style-specific captions. Experimental results on two widely used stylized image captioning datasets show that regarding consistency with the image, style accuracy and diversity, ADS-Cap achieves outstanding performances compared to various baselines. We finally conduct extensive analyses to understand the effectiveness of our method. Our code is available at https://github.com/njucckevin/ADS-Cap.

arxiv情報

著者 Kanzhi Cheng,Zheng Ma,Shi Zong,Jianbing Zhang,Xinyu Dai,Jiajun Chen
発行日 2023-08-02 13:33:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク