DGFont++: Robust Deformable Generative Networks for Unsupervised Font Generation

要約

人間の専門家を必要としない自動フォント生成は、特に多数の文字で構成される一部の言語では、実用的かつ重大な問題です。
フォント生成の既存の方法は、多くの場合、教師あり学習です。
大量のペア データが必要であり、収集には多大な労力と費用がかかります。
対照的に、一般的な教師なし画像から画像への変換方法はフォント生成には適用できません。多くの場合、テクスチャと色のセットとしてスタイルを定義するからです。
この作業では、教師なしフォント生成 (DGFont++ と略される) のための堅牢な変形可能な生成ネットワークを提案します。
フォント間のローカル パターンと幾何学的変換を学習するために、フィーチャ デフォメーション スキップ コネクション (FDSC) を導入します。
FDSC は、変位マップのペアを予測し、予測されたマップを使用して、変形可能な畳み込みを低レベルのコンテンツ機能マップに適用します。
FDSC の出力はミキサーに送られ、最終結果が生成されます。
さらに、フォントの類似性と非類似性を理解することにより、フォントの堅牢なスタイル表現を学習するために、対照的な自己教師あり学習を導入します。
さまざまなスタイルを区別するために、マルチタスク弁別器を使用してモデルをトレーニングします。これにより、各スタイルを個別に識別できるようになります。
敵対的損失に加えて、別の 2 つの再構成損失が採用され、生成された画像とコンテンツ画像の間のドメイン不変の特性が制限されます。
FDSC と採用された損失関数を利用することで、モデルは空間情報を維持し、教師なしで高品質の文字画像を生成することができます。
実験は、私たちのモデルが最先端の方法よりも高品質のキャラクター画像を生成できることを示しています。

要約(オリジナル)

Automatic font generation without human experts is a practical and significant problem, especially for some languages that consist of a large number of characters. Existing methods for font generation are often in supervised learning. They require a large number of paired data, which are labor-intensive and expensive to collect. In contrast, common unsupervised image-to-image translation methods are not applicable to font generation, as they often define style as the set of textures and colors. In this work, we propose a robust deformable generative network for unsupervised font generation (abbreviated as DGFont++). We introduce a feature deformation skip connection (FDSC) to learn local patterns and geometric transformations between fonts. The FDSC predicts pairs of displacement maps and employs the predicted maps to apply deformable convolution to the low-level content feature maps. The outputs of FDSC are fed into a mixer to generate final results. Moreover, we introduce contrastive self-supervised learning to learn a robust style representation for fonts by understanding the similarity and dissimilarities of fonts. To distinguish different styles, we train our model with a multi-task discriminator, which ensures that each style can be discriminated independently. In addition to adversarial loss, another two reconstruction losses are adopted to constrain the domain-invariant characteristics between generated images and content images. Taking advantage of FDSC and the adopted loss functions, our model is able to maintain spatial information and generates high-quality character images in an unsupervised manner. Experiments demonstrate that our model is able to generate character images of higher quality than state-of-the-art methods.

arxiv情報

著者 Xinyuan Chen,Yangchen Xie,Li Sun,Yue Lu
発行日 2022-12-30 14:35:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク