Lformer: Text-to-Image Generation with L-shape Block Parallel Decoding

要約

生成トランスフォーマーは、優れた多様性やトレーニングの安定性など、高忠実度で高解像度の画像を合成する際の優位性を示しています。
ただし、長いトークン シーケンスを自己回帰的に生成する必要があるため、生成が遅いという問題があります。
優れた生成品質を維持しながら生成トランスフォーマーをより高速化するために、半自己回帰テキストから画像への生成モデルである Lformer を提案します。
Lformer はまず画像を $h{\times}h$ 個の離散トークンにエンコードし、次にこれらのトークンを左上から右下にミラーリングされた $h$ 個の L 字型ブロックに分割し、ブロック内のトークンを各ステップで並列にデコードします。
Lformer は、自己回帰モデルのように前のコンテキストに隣接する領域を予測するため、加速中はより安定します。
イメージ トークンの 2D 構造を活用することで、Lformer は、優れた生成品質を維持しながら、既存のトランスフォーマー ベースの方法よりも高速化を実現します。
さらに、事前トレーニング済みの Lformer は、微調整を必要とせずに画像を編集できます。
再生成の初期段階にロールバックするか、バウンディング ボックスとテキスト プロンプトを使用して画像を編集できます。

要約(オリジナル)

Generative transformers have shown their superiority in synthesizing high-fidelity and high-resolution images, such as good diversity and training stability. However, they suffer from the problem of slow generation since they need to generate a long token sequence autoregressively. To better accelerate the generative transformers while keeping good generation quality, we propose Lformer, a semi-autoregressive text-to-image generation model. Lformer firstly encodes an image into $h{\times}h$ discrete tokens, then divides these tokens into $h$ mirrored L-shape blocks from the top left to the bottom right and decodes the tokens in a block parallelly in each step. Lformer predicts the area adjacent to the previous context like autoregressive models thus it is more stable while accelerating. By leveraging the 2D structure of image tokens, Lformer achieves faster speed than the existing transformer-based methods while keeping good generation quality. Moreover, the pretrained Lformer can edit images without the requirement for finetuning. We can roll back to the early steps for regeneration or edit the image with a bounding box and a text prompt.

arxiv情報

著者 Jiacheng Li,Longhui Wei,ZongYuan Zhan,Xin He,Siliang Tang,Qi Tian,Yueting Zhuang
発行日 2023-03-07 11:10:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク