PAI-Diffusion: Constructing and Serving a Family of Open Chinese Diffusion Models for Text-to-image Synthesis on the Cloud

要約

中国語のテキストと画像の合成には、語彙サイズが大きく、文字の関係が複雑であるため、独特の課題が生じます。
既存の普及モデルは、テキストの説明から画像を生成する点では有望であることが示されていますが、ドメイン固有のコンテキストを無視することが多く、中国語の処理において堅牢性に欠けています。
このペーパーでは、これらの制限に対処する包括的なフレームワークである PAI-Diffusion を紹介します。
PAI-Diffusion には、一般的な中国語拡散モデルとドメイン固有の中国語拡散モデルの両方が組み込まれており、文脈に応じた画像の生成が可能になります。
LoRA と ControlNet を使用して、きめ細かい画像スタイルの転送と画像編集を行う可能性を探り、ユーザーが画像生成の制御を強化できるようにします。
さらに、PAI-Diffusion は Alibaba Cloud の AI 用機械学習プラットフォームとシームレスに統合し、アクセスしやすくスケーラブルなソリューションを提供します。
中国の普及モデルのチェックポイント、LoRA、および ControlNet は、ドメイン固有のものを含め、すべて公開されています。
ユーザーフレンドリーな中国語 WebUI と、やはりオープンソースの diffusers-api 弾性推論ツールキットにより、さまざまな環境での PAI 拡散モデルの簡単な展開がさらに容易になり、中国語のテキストから画像への合成のための貴重なリソースとなっています。

要約(オリジナル)

Text-to-image synthesis for the Chinese language poses unique challenges due to its large vocabulary size, and intricate character relationships. While existing diffusion models have shown promise in generating images from textual descriptions, they often neglect domain-specific contexts and lack robustness in handling the Chinese language. This paper introduces PAI-Diffusion, a comprehensive framework that addresses these limitations. PAI-Diffusion incorporates both general and domain-specific Chinese diffusion models, enabling the generation of contextually relevant images. It explores the potential of using LoRA and ControlNet for fine-grained image style transfer and image editing, empowering users with enhanced control over image generation. Moreover, PAI-Diffusion seamlessly integrates with Alibaba Cloud’s Machine Learning Platform for AI, providing accessible and scalable solutions. All the Chinese diffusion model checkpoints, LoRAs, and ControlNets, including domain-specific ones, are publicly available. A user-friendly Chinese WebUI and the diffusers-api elastic inference toolkit, also open-sourced, further facilitate the easy deployment of PAI-Diffusion models in various environments, making it a valuable resource for Chinese text-to-image synthesis.

arxiv情報

著者 Chengyu Wang,Zhongjie Duan,Bingyan Liu,Xinyi Zou,Cen Chen,Kui Jia,Jun Huang
発行日 2023-09-11 15:18:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク