要約
テキストは人類の文明の継承において重要な役割を担っており、様々なスタイルのオンライン手書きテキストを生成することを機械に教えることは、興味深く重要な課題である。しかし、ほとんどの先行研究は個々の中国語フォントの生成に集中しており、{完全なテキスト行の生成はほとんど未解明}のままである。本稿では、テキスト行はレイアウトとグリフという2つの要素に自然に分割できることを明らかにする。この分割に基づき、この課題に階層的に対処するために、拡散ベースのスタイル付きフォント合成器と結合したテキスト行レイアウト生成器を設計した。より具体的には、レイアウトジェネレータは、テキストコンテンツと提供されたスタイル参照に基づいてコンテキスト内学習を行い、各グリフの位置を自己回帰的に生成する。一方、文字埋め込み辞書、マルチスケール書道スタイルエンコーダ、および1次元U-Netベースの拡散ノイズ除去器から構成されるフォント合成器は、与えられたスタイル参照から抽出された書道スタイルを模倣しながら、その位置に各フォントを生成する。CASIA-OLHWDBを用いた定性的および定量的な実験により、本手法が構造的に正しく、識別不可能な模倣サンプルを生成できることが実証された。
要約(オリジナル)
Text plays a crucial role in the transmission of human civilization, and teaching machines to generate online handwritten text in various styles presents an interesting and significant challenge. However, most prior work has concentrated on generating individual Chinese fonts, leaving {complete text line generation largely unexplored}. In this paper, we identify that text lines can naturally be divided into two components: layout and glyphs. Based on this division, we designed a text line layout generator coupled with a diffusion-based stylized font synthesizer to address this challenge hierarchically. More concretely, the layout generator performs in-context-like learning based on the text content and the provided style references to generate positions for each glyph autoregressively. Meanwhile, the font synthesizer which consists of a character embedding dictionary, a multi-scale calligraphy style encoder, and a 1D U-Net based diffusion denoiser will generate each font on its position while imitating the calligraphy style extracted from the given style references. Qualitative and quantitative experiments on the CASIA-OLHWDB demonstrate that our method is capable of generating structurally correct and indistinguishable imitation samples.
arxiv情報
著者 | Min-Si Ren,Yan-Ming Zhang,Yi Chen |
発行日 | 2024-10-04 13:28:20+00:00 |
arxivサイト | arxiv_id(pdf) |