要約
タイトル:GlyphDraw: Learning to Draw Chinese Characters in Image Synthesis Models Coherently
要約:
– 言語指示に基づく画像生成の分野では、高品質で多様なイメージを生成できるようになっている。
– しかし、現在の画像生成モデルには、とりわけ複雑な字形構造を持つ中国語の文字を画像内に適切に生成する能力が不足している。
– GlyphDrawは、画像生成モデルに適切なテキストを組み込む能力を持たせるための一般的な学習フレームワークであり、中国語の文字生成に取り組む最初の作品である。
– OCR技術を採用して、中国語の文字を含む画像を収集し、補助情報としてテキストと位置を抽出する。
– 精巧に設計された画像・テキストのデータセット構築戦略を採用し、拡散ベースの画像生成器上にモデルを構築して、グリフと位置情報の支援を受けて中国語の文字を描画できるようにネットワーク構造を注意深く修正する。
– トレーニング技術を多様に使用することで、オープンドメインの画像合成能力を維持する。
– 大規模で質的・量的な実験により、GlyphDrawが正確な中国語の文字を提示して自然に生成されたテキストを背景に組み込むことを示す。 詳細については、 https://1073521013.github.io/glyph-draw.github.ioを参照。
要約(オリジナル)
Recent breakthroughs in the field of language-guided image generation have yielded impressive achievements, enabling the creation of high-quality and diverse images based on user instructions. Although the synthesis performance is fascinating, one significant limitation of current image generation models is their insufficient ability to generate coherent text within images, particularly for complex glyph structures like Chinese characters. To address this problem, we introduce GlyphDraw, a general learning framework aiming at endowing image generation models with the capacity to generate images embedded with coherent text. To the best of our knowledge, this is the first work in the field of image synthesis to address the generation of Chinese characters. % we first adopt the OCR technique to collect images with Chinese characters as training samples, and extract the text and locations as auxiliary information. We first sophisticatedly design the image-text dataset’s construction strategy, then build our model specifically on a diffusion-based image generator and carefully modify the network structure to allow the model to learn drawing Chinese characters with the help of glyph and position information. Furthermore, we maintain the model’s open-domain image synthesis capability by preventing catastrophic forgetting by using a variety of training techniques. Extensive qualitative and quantitative experiments demonstrate that our method not only produces accurate Chinese characters as in prompts, but also naturally blends the generated text into the background. Please refer to https://1073521013.github.io/glyph-draw.github.io
arxiv情報
著者 | Jian Ma,Mingjun Zhao,Chen Chen,Ruichen Wang,Di Niu,Haonan Lu,Xiaodong Lin |
発行日 | 2023-03-31 08:06:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI