Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts

要約

シーンベースのビデオ生成の最近の進歩により、システムは構造化されたプロンプトからの一貫した視覚的物語を合成することができました。
ただし、ストーリーテリングの重要な次元 – キャラクター主導の対話とスピーチ – は、露出度の低いままです。
このペーパーでは、アクションレベルのプロンプトを視覚的および聴覚的に根拠のある物語の対話に変換するモジュラーパイプラインを紹介し、自然な声とキャラクターの表現で視覚的なストーリーテリングを豊かにします。
私たちの方法は、シーンごとのプロンプトのペアを入力します。最初の設定と2番目のプロンプトがキャラクターの動作を指定します。
Text2Storyなどのストーリー生成モデルは、対応する視覚シーンを生成しますが、これらのプロンプトとシーンイメージから表現力のあるキャラクターの発話を生成することに焦点を当てます。
前処理されたビジョン言語エンコーダーを適用して、代表的なフレームから高レベルのセマンティック機能を抽出し、顕著な視覚的コンテキストをキャプチャします。
この機能は、構造化されたプロンプトと組み合わされ、自然でキャラクター親和な対話を合成する際に大きな言語モデルを導くために使用されます。
シーン全体のコンテキストの一貫性を確保するために、以前のシーンから蓄積された対話履歴に関する各対話生成を条件付ける再帰的な物語銀行を導入します。
このアプローチにより、キャラクターは、ストーリー全体で進化する目標と相互作用を反映する方法で話すことができます。
最後に、各発話を表現力豊かでキャラクター一貫性のあるスピーチとしてレンダリングし、完全に声のビデオの物語をもたらします。
私たちのフレームワークは追加のトレーニングを必要とせず、ファンタジーアドベンチャーからライフオブライフエピソードまで、さまざまなストーリー設定における適用性を示しています。

要約(オリジナル)

Recent advances in scene-based video generation have enabled systems to synthesize coherent visual narratives from structured prompts. However, a crucial dimension of storytelling — character-driven dialogue and speech — remains underexplored. In this paper, we present a modular pipeline that transforms action-level prompts into visually and auditorily grounded narrative dialogue, enriching visual storytelling with natural voice and character expression. Our method takes as input a pair of prompts per scene, where the first defines the setting and the second specifies a character’s behavior. While a story generation model such as Text2Story generates the corresponding visual scene, we focus on generating expressive character utterances from these prompts and the scene image. We apply a pretrained vision-language encoder to extract a high-level semantic feature from the representative frame, capturing salient visual context. This feature is then combined with the structured prompts and used to guide a large language model in synthesizing natural, character-consistent dialogue. To ensure contextual consistency across scenes, we introduce a Recursive Narrative Bank that conditions each dialogue generation on the accumulated dialogue history from prior scenes. This approach enables characters to speak in ways that reflect their evolving goals and interactions throughout a story. Finally, we render each utterance as expressive, character-consistent speech, resulting in fully-voiced video narratives. Our framework requires no additional training and demonstrates applicability across a variety of story settings, from fantasy adventures to slice-of-life episodes.

arxiv情報

著者 Taewon Kang,Ming C. Lin
発行日 2025-05-22 15:54:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク