FontDiffuser: One-Shot Font Generation via Denoising Diffusion with Multi-Scale Content Aggregation and Style Contrastive Learning

要約

自動フォント生成は模倣タスクであり、ソース イメージのコンテンツを保持しながら、参照イメージのスタイルを模倣するフォント ライブラリを作成することを目的としています。
既存のフォント生成方法は満足のいくパフォーマンスを達成していますが、複雑な文字やスタイルの大きなバリエーションに依然として苦労しています。
これらの問題に対処するために、私たちは FontDiffuser を提案します。これは、フォント模倣タスクをノイズからノイズ除去のパラダイムとして革新的にモデル化する、拡散ベースの画像から画像へのワンショット フォント生成方法です。
私たちの手法では、マルチスケール コンテンツ アグリゲーション (MCA) ブロックを導入します。これは、さまざまなスケールにわたるグローバル コンテンツ キューとローカル コンテンツ キューを効果的に組み合わせ、複雑な文字の複雑なストロークの保存を強化します。
さらに、スタイル転送における大きな変動をより適切に管理するために、スタイル表現学習のための新しい構造であるスタイル対照洗練 (SCR) モジュールを提案します。
スタイル抽出機能を利用して画像からスタイルを解きほぐし、その後、細心の注意を払って設計されたスタイルのコントラスト損失によって拡散モデルを監視します。
広範な実験により、多様な文字やスタイルを生成する際の FontDiffuser の最先端のパフォーマンスが実証されています。
以前の方法と比較して、複雑な文字や大きなスタイルの変更において一貫して優れています。
コードは https://github.com/yeungchenwa/FontDiffuser で入手できます。

要約(オリジナル)

Automatic font generation is an imitation task, which aims to create a font library that mimics the style of reference images while preserving the content from source images. Although existing font generation methods have achieved satisfactory performance, they still struggle with complex characters and large style variations. To address these issues, we propose FontDiffuser, a diffusion-based image-to-image one-shot font generation method, which innovatively models the font imitation task as a noise-to-denoise paradigm. In our method, we introduce a Multi-scale Content Aggregation (MCA) block, which effectively combines global and local content cues across different scales, leading to enhanced preservation of intricate strokes of complex characters. Moreover, to better manage the large variations in style transfer, we propose a Style Contrastive Refinement (SCR) module, which is a novel structure for style representation learning. It utilizes a style extractor to disentangle styles from images, subsequently supervising the diffusion model via a meticulously designed style contrastive loss. Extensive experiments demonstrate FontDiffuser’s state-of-the-art performance in generating diverse characters and styles. It consistently excels on complex characters and large style changes compared to previous methods. The code is available at https://github.com/yeungchenwa/FontDiffuser.

arxiv情報

著者 Zhenhua Yang,Dezhi Peng,Yuxin Kong,Yuyi Zhang,Cong Yao,Lianwen Jin
発行日 2023-12-19 13:23:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク