要約
最近増加しているマークアップからイメージへの生成は、エラーに対する許容度が低く、マークアップとレンダリングされたイメージ間のシーケンスとコンテキストの相関関係が複雑であるため、自然なイメージ生成と比較して大きな課題が生じています。
この論文では、「きめ細かなシーケンス アライメントを備えたコントラスト拡張拡散モデル」(FSA-CDM) という名前の新しいモデルを提案します。これは、マークアップから画像への生成のパフォーマンスを向上させるために、拡散モデルに対照的なポジティブ/ネガティブ サンプルを導入します。
技術的には、ロバストな特徴表現を学習するための 2 つのモダリティ間の配列類似性を十分に調査するため、きめの細かいクロスモーダル アライメント モジュールを設計します。
一般化能力を向上させるために、新しいコントラスト変分目標を最大化することによって陽性サンプルと陰性サンプルを明示的に探索するコントラスト増強拡散モデルを提案します。これは、モデルの最適化により厳しい境界を提供するために数学的に推論されます。
さらに、コンテキスト認識クロス アテンション モジュールは、ノイズ除去プロセス中にマークアップ言語内のコンテキスト情報をキャプチャするために開発されており、より優れたノイズ予測結果が得られます。
さまざまなドメインの 4 つのベンチマーク データセットに対して広範な実験が行われ、その実験結果は、FSA-CDM で提案されたコンポーネントの有効性を実証し、DTW の約 2% ~ 12% の向上により最先端のパフォーマンスを大幅に上回りました。
コードは https://github.com/zgj77/FSACDM でリリースされます。
要約(オリジナル)
The recently rising markup-to-image generation poses greater challenges as compared to natural image generation, due to its low tolerance for errors as well as the complex sequence and context correlations between markup and rendered image. This paper proposes a novel model named ‘Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment’ (FSA-CDM), which introduces contrastive positive/negative samples into the diffusion model to boost performance for markup-to-image generation. Technically, we design a fine-grained cross-modal alignment module to well explore the sequence similarity between the two modalities for learning robust feature representations. To improve the generalization ability, we propose a contrast-augmented diffusion model to explicitly explore positive and negative samples by maximizing a novel contrastive variational objective, which is mathematically inferred to provide a tighter bound for the model’s optimization. Moreover, the context-aware cross attention module is developed to capture the contextual information within markup language during the denoising process, yielding better noise prediction results. Extensive experiments are conducted on four benchmark datasets from different domains, and the experimental results demonstrate the effectiveness of the proposed components in FSA-CDM, significantly exceeding state-of-the-art performance by about 2%-12% DTW improvements. The code will be released at https://github.com/zgj77/FSACDM.
arxiv情報
著者 | Guojin Zhong,Jin Yuan,Pan Wang,Kailun Yang,Weili Guan,Zhiyong Li |
発行日 | 2023-08-02 13:43:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google