AI Illustrator: Translating Raw Descriptions into Images by Prompt-based Cross-Modal Generation

要約

AI illustratorは、豊かな思考や感情を喚起する視覚的に魅力的な書籍の画像を自動的にデザインすることを目的としている。この目標を達成するために、我々は複雑なセマンティクスを持つ生の記述を、セマンティクスに対応した画像に変換するためのフレームワークを提案する。主な課題は、視覚化されにくい生の説明文の意味論の複雑さにある(例えば、「陰気な」「アジア的な」など)。このような記述は、通常、既存の手法では扱いが難しい。この問題を解決するために、我々はCLIPとStyleGANを含む2つの強力な事前学習済みモデルを活用するプロンプトベースのクロスモーダル生成フレームワーク(PCM-Frame)を提案する。本フレームワークは、プロンプトに基づくテキスト埋め込みから画像埋め込みへの投影モジュールと、画像埋め込みを入力とし、意味的一貫性損失により学習されるStyleGAN上に構築された適合画像生成モジュールの2つのコンポーネントから構成される。現実的な画像とイラストのデザインの間のギャップを埋めるために、我々はさらに、より良い視覚効果のためのフレームワークの後処理としてスタイライゼーションモデルを採用しています。本手法は、事前に学習されたモデルの恩恵を受け、複雑な記述を扱うことができ、学習のために外部のペアデータを必要としない。さらに、200 個の生記述からなるベンチマークを構築した。また、複雑な文章を扱う競合手法に対する本手法の優位性を示すため、ユーザスタディを実施した。本手法のコードは https://github.com/researchmm/AI_Illustrator で公開している.

要約(オリジナル)

AI illustrator aims to automatically design visually appealing images for books to provoke rich thoughts and emotions. To achieve this goal, we propose a framework for translating raw descriptions with complex semantics into semantically corresponding images. The main challenge lies in the complexity of the semantics of raw descriptions, which may be hard to be visualized (e.g., ‘gloomy’ or ‘Asian’). It usually poses challenges for existing methods to handle such descriptions. To address this issue, we propose a Prompt-based Cross-Modal Generation Framework (PCM-Frame) to leverage two powerful pre-trained models, including CLIP and StyleGAN. Our framework consists of two components: a projection module from Text Embeddings to Image Embeddings based on prompts, and an adapted image generation module built on StyleGAN which takes Image Embeddings as inputs and is trained by combined semantic consistency losses. To bridge the gap between realistic images and illustration designs, we further adopt a stylization model as post-processing in our framework for better visual effects. Benefiting from the pre-trained models, our method can handle complex descriptions and does not require external paired data for training. Furthermore, we have built a benchmark that consists of 200 raw descriptions. We conduct a user study to demonstrate our superiority over the competing methods with complicated texts. We release our code at https://github.com/researchmm/AI_Illustrator.

arxiv情報

著者 Yiyang Ma,Huan Yang,Bei Liu,Jianlong Fu,Jiaying Liu
発行日 2022-09-08 04:24:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク