Few-Shot Font Generation by Learning Fine-Grained Local Styles

要約

人件費の大幅な削減により、新しいフォントの生成を目的としたFew-shot font generation (FFG) が注目を集めています。
典型的な FFG パイプラインは、標準フォント ライブラリ内の文字をコンテンツ グリフと見なし、参照グリフからスタイル情報を抽出することによって、それらを新しいターゲット フォントに転送します。
ほとんどの既存のソリューションは、参照グリフのコンテンツとスタイルをグローバルに、またはコンポーネントごとに明示的に解きほぐします。
ただし、グリフのスタイルは主に局所的な詳細にあります。つまり、部首、コンポーネント、およびストロークのスタイルが一緒になってグリフのスタイルを表します。
したがって、単一の文字でも、空間的な場所に分散されたさまざまなスタイルを含めることができます。
この論文では、1) リファレンスからのきめ細かいローカル スタイル、および 2) コンテンツとリファレンス グリフの間の空間的対応を学習することにより、新しいフォント生成アプローチを提案します。
したがって、コンテンツ グリフ内の各空間位置には、適切なきめ細かなスタイルを割り当てることができます。
この目的のために、クエリとしてのコンテンツグリフの表現と、キーと値としての参照グリフの表現に相互注意を採用します。
グローバルまたはコンポーネント単位のモデリングを明示的に解きほぐす代わりに、クロスアテンション メカニズムは、参照グリフの適切なローカル スタイルに注意を払い、参照スタイルを特定のコンテンツ グリフのきめの細かいスタイル表現に集約できます。
実験は、提案された方法がFFGの最先端の方法よりも優れていることを示しています。
特に、ユーザー調査は、私たちのアプローチのスタイルの一貫性が以前の方法よりも大幅に優れていることも示しています.

要約(オリジナル)

Few-shot font generation (FFG), which aims to generate a new font with a few examples, is gaining increasing attention due to the significant reduction in labor cost. A typical FFG pipeline considers characters in a standard font library as content glyphs and transfers them to a new target font by extracting style information from the reference glyphs. Most existing solutions explicitly disentangle content and style of reference glyphs globally or component-wisely. However, the style of glyphs mainly lies in the local details, i.e. the styles of radicals, components, and strokes together depict the style of a glyph. Therefore, even a single character can contain different styles distributed over spatial locations. In this paper, we propose a new font generation approach by learning 1) the fine-grained local styles from references, and 2) the spatial correspondence between the content and reference glyphs. Therefore, each spatial location in the content glyph can be assigned with the right fine-grained style. To this end, we adopt cross-attention over the representation of the content glyphs as the queries and the representations of the reference glyphs as the keys and values. Instead of explicitly disentangling global or component-wise modeling, the cross-attention mechanism can attend to the right local styles in the reference glyphs and aggregate the reference styles into a fine-grained style representation for the given content glyphs. The experiments show that the proposed method outperforms the state-of-the-art methods in FFG. In particular, the user studies also demonstrate the style consistency of our approach significantly outperforms previous methods.

arxiv情報

著者 Licheng Tang,Yiyang Cai,Jiaming Liu,Zhibin Hong,Mingming Gong,Minhu Fan,Junyu Han,Jingtuo Liu,Errui Ding,Jingdong Wang
発行日 2022-09-01 04:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク