要約
タイトル:マスク生成モデルを用いたテキストから画像生成のためのテキスト条件付きサンプリングフレームワーク
要約:
– トークンベースのマスク生成モデルは、並列デコーディングによる高速な推論時間のために人気があります。
– 最近のトークンベースのアプローチは、拡散法のモデルと競争力のあるパフォーマンスを達成していますが、複数のトークンを同時にサンプリングするために、依存関係を考慮しないという問題があります。
– この問題を実証的に調査し、テキスト情報を使用して局所的な監視を行う学習可能なサンプリングモデル、Text-Conditioned Token Selection(TCTS)を提案します。
– TCTSは、生成された画像の品質だけでなく、与えられたテキストとの意味的な整合性も向上させます。
– さらに、各自己注意マップに基づいて分割されたトークングループに対して結合サンプリング戦略であるFrequency Adaptive Sampling(FAS)を導入して、画像品質をさらに改善します。
– TCTSとFASの組み合わせによる有効性を、さまざまな生成タスクで検証し、画像とテキストの整合性と画像品質においてベースラインよりも優れていることを示します。
– テキスト条件付きサンプリングフレームワークにより、オリジナルの生成モデルを変更することなしに元の推論時間を50%以上短縮できます。
要約(オリジナル)
Token-based masked generative models are gaining popularity for their fast inference time with parallel decoding. While recent token-based approaches achieve competitive performance to diffusion-based models, their generation performance is still suboptimal as they sample multiple tokens simultaneously without considering the dependence among them. We empirically investigate this problem and propose a learnable sampling model, Text-Conditioned Token Selection (TCTS), to select optimal tokens via localized supervision with text information. TCTS improves not only the image quality but also the semantic alignment of the generated images with the given texts. To further improve the image quality, we introduce a cohesive sampling strategy, Frequency Adaptive Sampling (FAS), to each group of tokens divided according to the self-attention maps. We validate the efficacy of TCTS combined with FAS with various generative tasks, demonstrating that it significantly outperforms the baselines in image-text alignment and image quality. Our text-conditioned sampling framework further reduces the original inference time by more than 50% without modifying the original generative model.
arxiv情報
著者 | Jaewoong Lee,Sangwon Jang,Jaehyeong Jo,Jaehong Yoon,Yunji Kim,Jin-Hwa Kim,Jung-Woo Ha,Sung Ju Hwang |
発行日 | 2023-04-04 03:52:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI