StrokeGAN+: Few-Shot Semi-Supervised Chinese Font Generation with Stroke Encoding

要約

中国語フォントの生成には、幅広い用途があります。
現在主流の方法は、主に深層生成モデル、特に敵対的生成ネットワーク (GAN) に基づいています。
ただし、既存の GAN ベースのモデルは通常、よく知られているモード崩壊の問題に悩まされています。
モードの崩壊が発生すると、GAN ベースのモデルの種類は正しいフォントを生成できなくなります。
この問題に対処するために、1 ビット ストローク エンコーディングと少数ショットの半教師ありスキーム (つまり、いくつかのペア データを半教師あり情報として使用する) を導入して、それぞれ動機付けられた漢字のローカルおよびグローバル構造情報を調査します。
ストロークと文字が漢字の特定のローカル モードとグローバル モードを直接具現化するという直感によるものです。
これらのアイデアに基づいて、この論文では \textit{StrokeGAN+} と呼ばれる効果的なモデルを提案します。このモデルは、ストローク エンコーディングと少数ショットの半教師ありスキームを CycleGAN モデルに組み込みます。
提案モデルの有効性は、実験の量によって実証されています。
実験結果は、導入された 1 ビット ストローク エンコーディングと少数ショットの半教師付きトレーニング スキームによってモード崩壊の問題を効果的に軽減できること、および提案されたモデルが 14 のフォント生成タスクで最先端のモデルよりも優れていることを示しています。
4つの重要な評価指標と生成されたキャラクターの品質に関して。
CycleGANに加えて、提案されたアイデアを他の既存のモデルに適用してパフォーマンスを向上できることも示しています。
ゼロ ショット繁体字中国語フォント生成に対する提案モデルの有効性も、この論文で評価されます。

要約(オリジナル)

The generation of Chinese fonts has a wide range of applications. The currently predominated methods are mainly based on deep generative models, especially the generative adversarial networks (GANs). However, existing GAN-based models usually suffer from the well-known mode collapse problem. When mode collapse happens, the kind of GAN-based models will be failure to yield the correct fonts. To address this issue, we introduce a one-bit stroke encoding and a few-shot semi-supervised scheme (i.e., using a few paired data as semi-supervised information) to explore the local and global structure information of Chinese characters respectively, motivated by the intuition that strokes and characters directly embody certain local and global modes of Chinese characters. Based on these ideas, this paper proposes an effective model called \textit{StrokeGAN+}, which incorporates the stroke encoding and the few-shot semi-supervised scheme into the CycleGAN model. The effectiveness of the proposed model is demonstrated by amounts of experiments. Experimental results show that the mode collapse issue can be effectively alleviated by the introduced one-bit stroke encoding and few-shot semi-supervised training scheme, and that the proposed model outperforms the state-of-the-art models in fourteen font generation tasks in terms of four important evaluation metrics and the quality of generated characters. Besides CycleGAN, we also show that the proposed idea can be adapted to other existing models to improve their performance. The effectiveness of the proposed model for the zero-shot traditional Chinese font generation is also evaluated in this paper.

arxiv情報

著者 Jinshan Zeng,Yefei Wang,Qi Chen,Yunxin Liu,Mingwen Wang,Yuan Yao
発行日 2022-11-11 13:39:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク