Semantic-Conditional Diffusion Networks for Image Captioning

要約

テキストから画像への生成に関する最近の進歩により、強力な生成モデルとして機能する拡散モデルが台頭してきました。
それにもかかわらず、このような潜在変数モデルを活用して個別の単語間の依存関係を捉え、一方で画像キャプションで複雑な視覚言語の調整を追求することは簡単ではありません。
この論文では、Transformer ベースのエンコーダー/デコーダーの学習における深く根付いた慣習を打ち破り、画像キャプション用に調整された新しい拡散モデル ベースのパラダイム、つまり Semantic-Conditional Diffusion Networks (SCD-Net) を提案します。
技術的には、入力画像ごとに、最初にクロスモーダル検索モデルを介して意味的に関連する文を検索し、包括的な意味情報を伝えます。
豊富なセマンティクスは、拡散プロセスで出力文を生成する Diffusion Transformer の学習をトリガーする前に、さらにセマンティックと見なされます。
SCD-Net では、複数の Diffusion Transformer 構造が積み重ねられて、視覚と言語の整合性と言語の一貫性がカスケード方式で改善され、出力文が徐々に強化されます。
さらに、拡散プロセスを安定させるために、標準的な自己回帰 Transformer モデルの知識を使用して SCD-Net の学習を導く新しい自己批判的シーケンス トレーニング戦略が設計されています。
COCO データセットに関する広範な実験により、困難な画像キャプション タスクで拡散モデルを使用する有望な可能性が示されています。
ソース コードは、\url{https://github.com/YehLi/xmodaler/tree/master/configs/image_caption/scdnet} で入手できます。

要約(オリジナル)

Recent advances on text-to-image generation have witnessed the rise of diffusion models which act as powerful generative models. Nevertheless, it is not trivial to exploit such latent variable models to capture the dependency among discrete words and meanwhile pursue complex visual-language alignment in image captioning. In this paper, we break the deeply rooted conventions in learning Transformer-based encoder-decoder, and propose a new diffusion model based paradigm tailored for image captioning, namely Semantic-Conditional Diffusion Networks (SCD-Net). Technically, for each input image, we first search the semantically relevant sentences via cross-modal retrieval model to convey the comprehensive semantic information. The rich semantics are further regarded as semantic prior to trigger the learning of Diffusion Transformer, which produces the output sentence in a diffusion process. In SCD-Net, multiple Diffusion Transformer structures are stacked to progressively strengthen the output sentence with better visional-language alignment and linguistical coherence in a cascaded manner. Furthermore, to stabilize the diffusion process, a new self-critical sequence training strategy is designed to guide the learning of SCD-Net with the knowledge of a standard autoregressive Transformer model. Extensive experiments on COCO dataset demonstrate the promising potential of using diffusion models in the challenging image captioning task. Source code is available at \url{https://github.com/YehLi/xmodaler/tree/master/configs/image_caption/scdnet}.

arxiv情報

著者 Jianjie Luo,Yehao Li,Yingwei Pan,Ting Yao,Jianlin Feng,Hongyang Chao,Tao Mei
発行日 2022-12-06 16:08:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM パーマリンク