VAR-CLIP: Text-to-Image Generator with Visual Auto-Regressive Modeling

要約

VARは、「ネクストトークン予測」とは対照的に、「ネクストスケール予測」を採用する新世代のパラダイムである。この革新的な変換により、自動回帰(AR)変換器は視覚分布を迅速に学習し、ロバストな汎化を達成することができる。しかしながら、オリジナルのVARモデルは、クラス条件付き合成に制約されており、ガイダンスのためにテキストのキャプションのみに依存している。本論文では、VAR-CLIPを紹介する。VAR-CLIPは、視覚的自己回帰技術とCLIPの機能を統合した、新しいテキストから画像へのモデルである。VAR-CLIPフレームワークは、キャプションをテキスト埋め込みに符号化し、それを画像生成のためのテキスト条件として利用する。ImageNetのような広範なデータセットでの学習を容易にするため、BLIP2を活用した充実した画像-テキストデータセットを構築した。さらに、キャプションガイダンスを目的としたCLIP内の単語位置の重要性を掘り下げる。広範な実験により、VAR-CLIPが、高い忠実性、テキストの一致性、美的な卓越性を備えたファンタジー画像を生成することに長けていることを確認しています。私たちのプロジェクトページは https://github.com/daixiangzi/VAR-CLIP です。

要約(オリジナル)

VAR is a new generation paradigm that employs ‘next-scale prediction’ as opposed to ‘next-token prediction’. This innovative transformation enables auto-regressive (AR) transformers to rapidly learn visual distributions and achieve robust generalization. However, the original VAR model is constrained to class-conditioned synthesis, relying solely on textual captions for guidance. In this paper, we introduce VAR-CLIP, a novel text-to-image model that integrates Visual Auto-Regressive techniques with the capabilities of CLIP. The VAR-CLIP framework encodes captions into text embeddings, which are then utilized as textual conditions for image generation. To facilitate training on extensive datasets, such as ImageNet, we have constructed a substantial image-text dataset leveraging BLIP2. Furthermore, we delve into the significance of word positioning within CLIP for the purpose of caption guidance. Extensive experiments confirm VAR-CLIP’s proficiency in generating fantasy images with high fidelity, textual congruence, and aesthetic excellence. Our project page are https://github.com/daixiangzi/VAR-CLIP

arxiv情報

著者 Qian Zhang,Xiangzi Dai,Ninghua Yang,Xiang An,Ziyong Feng,Xingyu Ren
発行日 2024-08-02 11:03:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク