RenderDiffusion: Text Generation as Image Generation

要約

タイトル:RenderDiffusion:テキスト生成を画像生成として
要約:
– ディフュージョンモデルは、テキストの生成のための新しい生成的パラダイムになっています。
– この文書では、テキストの離散的カテゴリーの性質を考慮して、テキストによる画像生成による新しいディフュージョンアプローチ「RenderDiffusion」を提案します。
– 我々の主なアイデアは、ビジュアル言語コンテンツを含む「グリフ画像」として目標テキストをレンダリングすることです。
– この方法により、条件付きテキスト生成をグリフ画像生成のタスクとしてキャストし、離散的なテキストに連続的なディフュージョンモデルを適用することが自然なことになります。
– 特に、入力テキストに従った高品質のグリフ画像を生成するために、ベースと上位解像度のディフュージョンモデルの連鎖アーキテクチャを利用します。
– さらに、生成されたグリフ画像からビジュアル言語コンテンツを変換および改善するためのテキスト接続モジュールを設計します。
– 条件付きテキスト生成タスクと2つのメトリッククラス(品質と多様性)での4つの実験において、RenderDiffusionは、事前学習済み言語モデルを含むいくつかのベースラインと同等またはより優れた結果を実現できます。また、最近のディフュージョンモデルと比較しても、私たちのモデルは大幅に改善されます。

要約(オリジナル)

Diffusion models have become a new generative paradigm for text generation. Considering the discrete categorical nature of text, in this paper, we propose \textsc{RenderDiffusion}, a novel diffusion approach for text generation via text-guided image generation. Our key idea is to render the target text as a \emph{glyph image} containing visual language content. In this way, conditional text generation can be cast as a glyph image generation task, and it is then natural to apply continuous diffusion models to discrete texts. Specially, we utilize a cascaded architecture (\ie a base and a super-resolution diffusion model) to generate high-fidelity glyph images, conditioned on the input text. Furthermore, we design a text grounding module to transform and refine the visual language content from generated glyph images into the final texts. In experiments over four conditional text generation tasks and two classes of metrics (\ie quality and diversity), \textsc{RenderDiffusion} can achieve comparable or even better results than several baselines, including pretrained language models. Our model also makes significant improvements compared to the recent diffusion model.

arxiv情報

著者 Junyi Li,Wayne Xin Zhao,Jian-Yun Nie,Ji-Rong Wen
発行日 2023-04-25 02:14:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク