要約
画像ベースのストーリー生成に関する現在の作業は、既存の画像シーケンス コレクションの背後に一貫した筋書きがないという事実に悩まされています。
イメージに基づいた新しいデータセットである Visual Writing Prompts (VWP) を作成することで、ビジュアル ストーリーの生成を改善します。
VWP には、それぞれ 5 ~ 10 枚の画像を含む、ほぼ 2,000 の選択されたムービー ショットのシーケンスが含まれています。
イメージ シーケンスは、イメージ シーケンスと対応するイメージ シーケンスからの一連のグラウンディング キャラクターを考慮して、クラウドソーシングを介して収集された合計 12K のストーリーと整列されます。
私たちの新しい画像シーケンスの収集とフィルタリング プロセスにより、以前の作業と比較して、より一貫性があり、より物語性のあるストーリーを取得できるようになりました。
また、強力なベースラインとして、一貫性によって駆動されるキャラクターベースのストーリー生成モデルを提案します。
評価によると、生成されたストーリーは、現在の最先端のモデルで生成されたストーリーよりも一貫性があり、視覚的に根拠があり、物語性が高いことが示されています。
要約(オリジナル)
Current work on image-based story generation suffers from the fact that the existing image sequence collections do not have coherent plots behind them. We improve visual story generation by producing a new image-grounded dataset, Visual Writing Prompts (VWP). VWP contains almost 2K selected sequences of movie shots, each including 5-10 images. The image sequences are aligned with a total of 12K stories which were collected via crowdsourcing given the image sequences and a set of grounded characters from the corresponding image sequence. Our new image sequence collection and filtering process has allowed us to obtain stories that are more coherent and have more narrativity compared to previous work. We also propose a character-based story generation model driven by coherence as a strong baseline. Evaluations show that our generated stories are more coherent, visually grounded, and have more narrativity than stories generated with the current state-of-the-art model.
arxiv情報
著者 | Xudong Hong,Asad Sayeed,Khushboo Mehra,Vera Demberg,Bernt Schiele |
発行日 | 2023-01-20 13:38:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google