Taiyi-Diffusion-XL: Advancing Bilingual Text-to-Image Generation with Large Vision-Language Model Support

要約

テキストから画像へのモデルの最近の進歩により、画像生成機能が大幅に強化されましたが、バイリンガルまたは中国語のサポートに関しては、オープンソース モデルの顕著なギャップが依然として残っています。
このニーズに対処するために、我々は、バイリンガルの連続事前トレーニングのプロセスを通じて CLIP と Stable-Diffusion-XL の機能を拡張することによって開発された、新しい中国語と英語のバイリンガル テキストから画像へのモデルである Taiyi-Diffusion-XL を紹介します。
このアプローチには、最も頻繁に使用される漢字を CLIP のトークナイザーおよび埋め込みレイヤーに統合することによる語彙の効率的な拡張と、絶対位置エンコーディングの拡張が含まれます。
さらに、大規模なビジョン言語モデルによってテキスト プロンプトを強化し、画像のキャプションを改善し、より高い視覚的品質を実現します。
これらの拡張機能は、その後、下流のテキストから画像へのモデルに適用されます。
私たちの経験的結果は、開発されたCLIPモデルがバイリンガル画像テキスト検索に優れていることを示しています。さらに、Taiyi-Diffusion-XLのバイリンガル画像生成機能は以前のモデルを上回っています。
この研究は Taiyi-Diffusion-XL モデルの開発とオープンソース化につながり、特に中国語アプリケーションにおける画像生成の分野における顕著な進歩を表しています。
この貢献は、マルチモーダル研究におけるより多様な言語サポートのニーズに対処する上での一歩前進です。
モデルとデモンストレーションは \href{https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/}{this https URL} で公開されており、この分野でのさらなる研究とコラボレーションを促進します。

要約(オリジナル)

Recent advancements in text-to-image models have significantly enhanced image generation capabilities, yet a notable gap of open-source models persists in bilingual or Chinese language support. To address this need, we present Taiyi-Diffusion-XL, a new Chinese and English bilingual text-to-image model which is developed by extending the capabilities of CLIP and Stable-Diffusion-XL through a process of bilingual continuous pre-training. This approach includes the efficient expansion of vocabulary by integrating the most frequently used Chinese characters into CLIP’s tokenizer and embedding layers, coupled with an absolute position encoding expansion. Additionally, we enrich text prompts by large vision-language model, leading to better images captions and possess higher visual quality. These enhancements are subsequently applied to downstream text-to-image models. Our empirical results indicate that the developed CLIP model excels in bilingual image-text retrieval.Furthermore, the bilingual image generation capabilities of Taiyi-Diffusion-XL surpass previous models. This research leads to the development and open-sourcing of the Taiyi-Diffusion-XL model, representing a notable advancement in the field of image generation, particularly for Chinese language applications. This contribution is a step forward in addressing the need for more diverse language support in multimodal research. The model and demonstration are made publicly available at \href{https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/}{this https URL}, fostering further research and collaboration in this domain.

arxiv情報

著者 Xiaojun Wu,Dixiang Zhang,Ruyi Gan,Junyu Lu,Ziwei Wu,Renliang Sun,Jiaxing Zhang,Pingjian Zhang,Yan Song
発行日 2024-01-26 07:17:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク