GlyphDiffusion: Text Generation as Image Generation

要約

タイトル:GlyphDiffusion:テキスト生成を画像生成として
要約:
– この論文では、TextGenerationのための新しい生成パラダイムであるDiffusionModelsを提案する。
– テキストの離散的カテゴリー性を考慮して、GlyphDiffusionという、テキストによる画像生成を介した、新しいDiffusionアプローチを提案する。
– この論文のキー・アイデアは、視覚言語コンテンツを含むグリフ画像としてターゲットテキストをレンダリングすることで、条件付きテキスト生成をグリフ画像生成タスクとして射影し、連続的なDiffusionModelsを離散的なテキストに適用することです。
– 特に、入力テキストに基づいて高品質なグリフ画像を生成するために、ベースと上位解像度のDiffusionModelからなるトレーニング済みのキャスケードアーキテクチャを使用します。
– さらに、生成されたグリフ画像から視覚言語コンテンツを変換して洗練された最終テキストに変換するためのテキストグラウンディングモジュールを設計します。
– 4つの条件付きテキスト生成タスクと2つのメトリクスクラス(品質と多様性)に対する実験によると、GlyphDiffusionは、事前トレーニングされた言語モデルを含むいくつかのベースラインと比較して、同等またはさらに良い結果を達成できます。また、最近のDiffusionModelに比べても重要な改善が見られます。

要約(オリジナル)

Diffusion models have become a new generative paradigm for text generation. Considering the discrete categorical nature of text, in this paper, we propose GlyphDiffusion, a novel diffusion approach for text generation via text-guided image generation. Our key idea is to render the target text as a glyph image containing visual language content. In this way, conditional text generation can be cast as a glyph image generation task, and it is then natural to apply continuous diffusion models to discrete texts. Specially, we utilize a cascaded architecture (ie a base and a super-resolution diffusion model) to generate high-fidelity glyph images, conditioned on the input text. Furthermore, we design a text grounding module to transform and refine the visual language content from generated glyph images into the final texts. In experiments over four conditional text generation tasks and two classes of metrics (ie quality and diversity), GlyphDiffusion can achieve comparable or even better results than several baselines, including pretrained language models. Our model also makes significant improvements compared to the recent diffusion model.

arxiv情報

著者 Junyi Li,Wayne Xin Zhao,Jian-Yun Nie,Ji-Rong Wen
発行日 2023-05-08 07:44:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク