要約
タイトル:豊富なテキストを用いた表現力のあるテキストから画像生成
要約:
– テキストから画像生成のために、プレーンテキストは一般的なインターフェースとなっていますが、カスタマイズオプションが限られているため、正確な出力を記述することが困難です。
– 例えば、コンティニュアスな数量、すなわち正確なRGBカラー値や単語の重要度の指定が困難です。さらに、複雑なシーンについて詳細なテキストプロンプトを作成することは、人間にとって煩雑で、テキストエンコーダにとっても解釈が困難であるという問題があります。
– この問題に対処するために、フォントスタイル、サイズ、色、脚注などの形式をサポートするリッチテキストエディタを使用することを提案します。
– リッチテキストから各単語の属性を抽出し、ローカルスタイルコントロール、明示的なトークン再重み付け、正確なカラーレンダリング、詳細な領域合成を可能にします。
– 私たちは領域ベースの拡散プロセスを用いて、これらの機能を実現します。まず、プレーンテキストを使用したバニラ拡散プロセスのクロスアテンションマップに基づいて、各単語の領域を取得します。各領域について、領域固有の詳細なプロンプトを作成し、領域固有のガイダンスを適用してテキスト属性を強制します。
– 私たちは、リッチテキストからの画像生成の様々な例を提示し、定量評価により、強力なベースラインよりも優れた方法を示します。
要約(オリジナル)
Plain text has become a prevalent interface for text-to-image synthesis. However, its limited customization options hinder users from accurately describing desired outputs. For example, plain text makes it hard to specify continuous quantities, such as the precise RGB color value or importance of each word. Furthermore, creating detailed text prompts for complex scenes is tedious for humans to write and challenging for text encoders to interpret. To address these challenges, we propose using a rich-text editor supporting formats such as font style, size, color, and footnote. We extract each word’s attributes from rich text to enable local style control, explicit token reweighting, precise color rendering, and detailed region synthesis. We achieve these capabilities through a region-based diffusion process. We first obtain each word’s region based on cross-attention maps of a vanilla diffusion process using plain text. For each region, we enforce its text attributes by creating region-specific detailed prompts and applying region-specific guidance. We present various examples of image generation from rich text and demonstrate that our method outperforms strong baselines with quantitative evaluations.
arxiv情報
著者 | Songwei Ge,Taesung Park,Jun-Yan Zhu,Jia-Bin Huang |
発行日 | 2023-04-13 17:59:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI