Illustrating Classic Brazilian Books using a Text-To-Image Diffusion Model

要約

近年、ジェネレーティブ人工知能(GenAI)は、テキスト、聴覚、視覚、絵画の生成など、多様なモダリティを含む複雑なタスクに取り組む上で、大きな変貌を遂げている。このスペクトルの中で、テキスト対画像(TTI)モデルは、多様で美的に魅力的な構図を生成するための強力なアプローチとして登場し、芸術的創作からリアルな顔合成までのアプリケーションにまたがり、コンピュータビジョン、画像処理、およびマルチモーダルタスクにおいて重要な進歩を示している。潜在拡散モデル(LDM)の登場は、AI能力の領域におけるパラダイムシフトを意味する。本稿では、文学作品の挿絵に安定拡散LDMを採用することの実現可能性について掘り下げる。この調査のために、ブラジルの古典的な書籍7冊をケーススタディとして選んだ。その目的は、この試みの実用性を確認し、読者の経験を補強し豊かにする挿絵を作成する際の安定拡散の可能性を評価することである。特徴的で文脈に即した画像を生成する能力などの利点と、複雑な文学的描写の本質を忠実に捉える上での欠点などの欠点を概説する。この研究を通じて、AIが生成した挿絵を文学の文脈で利用することの可能性と有効性を総合的に評価し、この先駆的な技術の応用における展望と課題の両方を明らかにすることを目指す。

要約(オリジナル)

In recent years, Generative Artificial Intelligence (GenAI) has undergone a profound transformation in addressing intricate tasks involving diverse modalities such as textual, auditory, visual, and pictorial generation. Within this spectrum, text-to-image (TTI) models have emerged as a formidable approach to generating varied and aesthetically appealing compositions, spanning applications from artistic creation to realistic facial synthesis, and demonstrating significant advancements in computer vision, image processing, and multimodal tasks. The advent of Latent Diffusion Models (LDMs) signifies a paradigm shift in the domain of AI capabilities. This article delves into the feasibility of employing the Stable Diffusion LDM to illustrate literary works. For this exploration, seven classic Brazilian books have been selected as case studies. The objective is to ascertain the practicality of this endeavor and to evaluate the potential of Stable Diffusion in producing illustrations that augment and enrich the reader’s experience. We will outline the beneficial aspects, such as the capacity to generate distinctive and contextually pertinent images, as well as the drawbacks, including any shortcomings in faithfully capturing the essence of intricate literary depictions. Through this study, we aim to provide a comprehensive assessment of the viability and efficacy of utilizing AI-generated illustrations in literary contexts, elucidating both the prospects and challenges encountered in this pioneering application of technology.

arxiv情報

著者 Felipe Mahlow,André Felipe Zanella,William Alberto Cruz Castañeda,Regilene Aparecida Sarzi-Ribeiro
発行日 2024-08-01 13:28:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI パーマリンク