AI Illustrator: Translating Raw Descriptions into Images by Prompt-based Cross-Modal Generation

要約

AI illustratorは、豊かな思考や感情を喚起する視覚的に魅力的な書籍の画像を自動的にデザインすることを目的としている。この目標を達成するために、我々は複雑なセマンティクスを持つ生の記述を、セマンティクスに対応した画像に変換するフレームワークを提案します。このフレームワークの主な課題は、生の説明文の意味論が複雑で、視覚化されにくいことにあります(’gloomy’ や ‘Asian’ といった意味論)。このような記述は、既存の手法では扱いが難しいのが一般的です。そこで、CLIPとStyleGANという2つの強力な学習済みモデルを活用する、rompt-based \textbf{C} cross-textbf{M}odal Generation (PCM-Frame) ワークを提案します。このフレームワークは、プロンプトに基づき、⾳⽂章から⾳⽂章への投影モジュールと、StyleGANをベースに構築され、⾳⽂章を入力として、意味整合損失により学習する適応型画像生成モジュールから構成されています。さらに、リアルな画像とイラストのデザインのギャップを埋めるために、私たちのフレームワークではポスト処理としてスタイル化モデルを採用し、より良い視覚効果を実現しています。本手法は、事前に学習されたモデルの恩恵を受け、複雑な記述を扱うことができ、学習のために外部のペアデータを必要としない。さらに、200 個の生記述からなるベンチマークを構築した。また、複雑な文章に対する本手法の優位性を実証するため、ユーザスタディを実施した。本手法のコードは https://github.com/researchmm/AI_Illustrator}{https://github.com/researchmm/AI_Illustrator} で公開されている。

要約(オリジナル)

AI illustrator aims to automatically design visually appealing images for books to provoke rich thoughts and emotions. To achieve this goal, we propose a framework for translating raw descriptions with complex semantics into semantically corresponding images. The main challenge lies in the complexity of the semantics of raw descriptions, which may be hard to be visualized (\textit{e}.\textit{g}., ‘gloomy’ or ‘Asian’). It usually poses challenges for existing methods to handle such descriptions. To address this issue, we propose a \textbf{P}rompt-based \textbf{C}ross-\textbf{M}odal Generation \textbf{Frame}work (PCM-Frame) to leverage two powerful pre-trained models, including CLIP and StyleGAN. Our framework consists of two components: a projection module from \textit{Text Embedding}s to \textit{Image Embedding}s based on prompts, and an adapted image generation module built on StyleGAN which takes \textit{Image Embedding}s as inputs and is trained by combined semantic consistency losses. To bridge the gap between realistic images and illustration designs, we further adopt a stylization model as post-processing in our framework for better visual effects. Benefiting from the pre-trained models, our method can handle complex descriptions and does not require external paired data for training. Furthermore, we have built a benchmark that consists of 200 raw descriptions. We conduct a user study to demonstrate our superiority over the competing methods with complicated texts. We release our code at https://github.com/researchmm/AI\_Illustrator}{https://github.com/researchmm/AI\_Illustrator

arxiv情報

著者 Yiyang Ma,Huan Yang,Bei Liu,Jianlong Fu,Jiaying Liu
発行日 2022-09-07 13:53:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, I.4 パーマリンク