Imagining from Images with an AI Storytelling Tool

要約

ナラティブ アートの太古の伝統に触発されて、単一の画像または画像シーケンスを分析することによって物語を生成する方法が提示されます。
提案された方法では、視覚コンテンツを解釈し、魅力的なストーリーを作成するための GPT-4o のマルチモーダル機能を調査します。これは、Stable Diffusion XL モデルで示されています。
このメソッドは、ImageTeller と呼ばれる完全に実装されたツールによってサポートされており、さまざまなソースから画像を入力として受け入れます。
ユーザーは、コメディ、ロマンス、悲劇、風刺、ミステリーなどの基本的なジャンルの規則に従って物語の展開をガイドしたり、データ駆動型のストーリーを生成することを選択したり、プロトタイプを自由に残して物語の構造を処理する方法を決定したりできます。
生成プロセスに沿ってユーザー インタラクションが提供され、ユーザーは代替の章やイラストを要求したり、同じ入力に基づいてストーリー生成を拒否したり再開したりすることもできます。
さらに、ユーザーは入力画像にキャプションを添付して、システムによる視覚コンテンツの解釈に影響を与えることができます。
生成されたストーリーの例と、プロトタイプへのアクセス方法の詳細が提供されます。

要約(オリジナル)

A method for generating narratives by analyzing single images or image sequences is presented, inspired by the time immemorial tradition of Narrative Art. The proposed method explores the multimodal capabilities of GPT-4o to interpret visual content and create engaging stories, which are illustrated by a Stable Diffusion XL model. The method is supported by a fully implemented tool, called ImageTeller, which accepts images from diverse sources as input. Users can guide the narrative’s development according to the conventions of fundamental genres – such as Comedy, Romance, Tragedy, Satire or Mystery -, opt to generate data-driven stories, or to leave the prototype free to decide how to handle the narrative structure. User interaction is provided along the generation process, allowing the user to request alternative chapters or illustrations, and even reject and restart the story generation based on the same input. Additionally, users can attach captions to the input images, influencing the system’s interpretation of the visual content. Examples of generated stories are provided, along with details on how to access the prototype.

arxiv情報

著者 Edirlei Soares de Lima,Marco A. Casanova,Antonio L. Furtado
発行日 2024-08-21 10:49:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク