Imagining from Images with an AI Storytelling Tool


ナラティブ アートの太古の伝統に触発されて、単一の画像または画像シーケンスを分析することによって物語を生成する方法が提示されます。
提案された方法では、視覚コンテンツを解釈し、魅力的なストーリーを作成するための GPT-4o のマルチモーダル機能を調査します。これは、Stable Diffusion XL モデルで示されています。
このメソッドは、ImageTeller と呼ばれる完全に実装されたツールによってサポートされており、さまざまなソースから画像を入力として受け入れます。
生成プロセスに沿ってユーザー インタラクションが提供され、ユーザーは代替の章やイラストを要求したり、同じ入力に基づいてストーリー生成を拒否したり再開したりすることもできます。


A method for generating narratives by analyzing single images or image sequences is presented, inspired by the time immemorial tradition of Narrative Art. The proposed method explores the multimodal capabilities of GPT-4o to interpret visual content and create engaging stories, which are illustrated by a Stable Diffusion XL model. The method is supported by a fully implemented tool, called ImageTeller, which accepts images from diverse sources as input. Users can guide the narrative’s development according to the conventions of fundamental genres – such as Comedy, Romance, Tragedy, Satire or Mystery -, opt to generate data-driven stories, or to leave the prototype free to decide how to handle the narrative structure. User interaction is provided along the generation process, allowing the user to request alternative chapters or illustrations, and even reject and restart the story generation based on the same input. Additionally, users can attach captions to the input images, influencing the system’s interpretation of the visual content. Examples of generated stories are provided, along with details on how to access the prototype.


著者 Edirlei Soares de Lima,Marco A. Casanova,Antonio L. Furtado
発行日 2024-08-21 10:49:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク