FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation

要約

最近、伝統的にプロのデザイナーの領域である芸術的なフォントを作成するための、最新の拡散ベースのテキストから画像への生成モデルの適用が大きな関心を集めています。
芸術的なタイポグラフィーの生成に焦点を当てた既存の研究の大部分とは異なり、私たちの研究は、多言語フォントのテキスト効果の生成という、斬新でより要求の厳しい課題に取り組むことを目的としています。
このタスクは基本的に、従来の長方形のキャンバスではなく、フォント型のキャンバスの範囲内で一貫性のある一貫したビジュアル コンテンツを生成する必要があります。
この課題に対処するために、与えられた形状を解釈し、不規則なキャンバス内のピクセル分布を戦略的に計画できる新しい形状適応拡散モデルを導入します。
これを達成するために、高品質の形状適応画像テキスト データセットを厳選し、不規則なキャンバス内で画像生成プロセスを制御するための視覚条件としてセグメンテーション マスクを組み込みます。
このアプローチにより、従来の長方形のキャンバスベースの拡散モデルで、提供された幾何学的形状に従って目的のコンセプトを生成できるようになります。
次に、複数の文字間で一貫性を維持するために、生成された参照文字から他の文字にテクスチャを転送するための、トレーニング不要の形状適応効果転送方法も提示します。
重要な洞察は、事前にフォント効果ノイズを構築し、連結された潜在空間でフォント効果情報を伝播することです。
当社の FontStudio システムの有効性は、ユーザーの好みの調査によって確認されており、最新の比類のない商用製品である Adob​​e Firefly と比較した場合でも、当社のシステムが顕著に好まれていることが示されています (美観に関して 78% の勝率)。

要約(オリジナル)

Recently, the application of modern diffusion-based text-to-image generation models for creating artistic fonts, traditionally the domain of professional designers, has garnered significant interest. Diverging from the majority of existing studies that concentrate on generating artistic typography, our research aims to tackle a novel and more demanding challenge: the generation of text effects for multilingual fonts. This task essentially requires generating coherent and consistent visual content within the confines of a font-shaped canvas, as opposed to a traditional rectangular canvas. To address this task, we introduce a novel shape-adaptive diffusion model capable of interpreting the given shape and strategically planning pixel distributions within the irregular canvas. To achieve this, we curate a high-quality shape-adaptive image-text dataset and incorporate the segmentation mask as a visual condition to steer the image generation process within the irregular-canvas. This approach enables the traditionally rectangle canvas-based diffusion model to produce the desired concepts in accordance with the provided geometric shapes. Second, to maintain consistency across multiple letters, we also present a training-free, shape-adaptive effect transfer method for transferring textures from a generated reference letter to others. The key insights are building a font effect noise prior and propagating the font effect information in a concatenated latent space. The efficacy of our FontStudio system is confirmed through user preference studies, which show a marked preference (78% win-rates on aesthetics) for our system even when compared to the latest unrivaled commercial product, Adobe Firefly.

arxiv情報

著者 Xinzhi Mu,Li Chen,Bohan Chen,Shuyang Gu,Jianmin Bao,Dong Chen,Ji Li,Yuhui Yuan
発行日 2024-06-12 16:43:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク