要約
デジタル アート合成は、大衆をアートに効果的に関与させるため、マルチメディア コミュニティでますます注目を集めています。
現在のデジタル アート合成方法は、通常、単一モダリティ入力をガイダンスとして使用するため、モデルの表現力と生成される結果の多様性が制限されます。
この問題を解決するために、マルチモーダル ガイド付きアートワーク拡散 (MGAD) モデルを提案します。
さらに、対照的な言語画像事前トレーニング (CLIP) モデルを使用して、テキストと画像のモダリティを統合します。
生成されたデジタルアート絵画の質と量に関する広範な実験結果により、拡散モデルとマルチモーダルガイダンスの組み合わせの有効性が確認されています。
コードは https://github.com/haha-lisa/MGAD-multimodal-guided-artwork-diffusion で入手できます。
要約(オリジナル)
Digital art synthesis is receiving increasing attention in the multimedia community because of engaging the public with art effectively. Current digital art synthesis methods usually use single-modality inputs as guidance, thereby limiting the expressiveness of the model and the diversity of generated results. To solve this problem, we propose the multimodal guided artwork diffusion (MGAD) model, which is a diffusion-based digital artwork generation approach that utilizes multimodal prompts as guidance to control the classifier-free diffusion model. Additionally, the contrastive language-image pretraining (CLIP) model is used to unify text and image modalities. Extensive experimental results on the quality and quantity of the generated digital art paintings confirm the effectiveness of the combination of the diffusion model and multimodal guidance. Code is available at https://github.com/haha-lisa/MGAD-multimodal-guided-artwork-diffusion.
arxiv情報
著者 | Huang Nisha,Tang Fan,Dong Weiming,Xu Changsheng |
発行日 | 2022-09-27 13:10:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google