Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling

要約

最近の画像生成モデルは、短いキャプションから高品質の画像を作成することに優れています。
ただし、長いコンテキストに遭遇した場合、イメージ全体で複数のインスタンスの一貫性を維持できません。
この不一致は、既存のトレーニング データセットに詳細なインスタンス フィーチャのラベル付けが存在しないことが主な原因です。
これらの問題に取り組むために、追加のインスタンスレベルのアノテーションと画像とテキストの両方を組み合わせた大規模なデータセットである Openstory++ を導入します。
さらに、エンティティ中心の画像テキスト生成に重点を置いたトレーニング方法を開発し、モデルが視覚情報とテキスト情報を効果的に織り交ぜることを確実に学習できるようにします。
具体的には、Openstory++ は、オープンドメインのビデオからキーフレームを抽出するプロセスを合理化し、ビジョン言語モデルを使用してキャプションを生成し、その後、物語の連続性のために大規模な言語モデルによって洗練されます。
これは、自動化されたキャプション、インスタンス数に合わせて調整された高解像度画像、時間的一貫性のための広範なフレーム シーケンスを組み込んだ、より拡張的なオープンドメイン リソースを提供することで、以前のデータセットを超えています。
さらに、特定のコンテキスト内の背景、スタイル、インスタンスを一貫性を保つ機能など、長いマルチモーダル コンテキストが提供された場合に画像生成タスクを評価するための先駆的なベンチマーク フレームワークである Cohere-Bench を紹介します。
既存のベンチマークと比較して、私たちの研究はマルチモーダル生成における重大なギャップを埋め、オープンドメイン環境で複雑なナラティブを適切に生成および解釈できるモデルの開発を推進します。
Cohere-Bench内で行われた実験では、高品質のビジュアルストーリーテリングモデルを育成し、オープンドメイン生成タスクに対処する能力を強化する点でOpenstory++の優位性が確認されました。
詳細については、https://openstorypp.github.io/ をご覧ください。

要約(オリジナル)

Recent image generation models excel at creating high-quality images from brief captions. However, they fail to maintain consistency of multiple instances across images when encountering lengthy contexts. This inconsistency is largely due to in existing training datasets the absence of granular instance feature labeling in existing training datasets. To tackle these issues, we introduce Openstory++, a large-scale dataset combining additional instance-level annotations with both images and text. Furthermore, we develop a training methodology that emphasizes entity-centric image-text generation, ensuring that the models learn to effectively interweave visual and textual information. Specifically, Openstory++ streamlines the process of keyframe extraction from open-domain videos, employing vision-language models to generate captions that are then polished by a large language model for narrative continuity. It surpasses previous datasets by offering a more expansive open-domain resource, which incorporates automated captioning, high-resolution imagery tailored for instance count, and extensive frame sequences for temporal consistency. Additionally, we present Cohere-Bench, a pioneering benchmark framework for evaluating the image generation tasks when long multimodal context is provided, including the ability to keep the background, style, instances in the given context coherent. Compared to existing benchmarks, our work fills critical gaps in multi-modal generation, propelling the development of models that can adeptly generate and interpret complex narratives in open-domain environments. Experiments conducted within Cohere-Bench confirm the superiority of Openstory++ in nurturing high-quality visual storytelling models, enhancing their ability to address open-domain generation tasks. More details can be found at https://openstorypp.github.io/

arxiv情報

著者 Zilyu Ye,Jinxiu Liu,Ruotian Peng,Jinjin Cao,Zhiyang Chen,Yiyang Zhang,Ziwei Xuan,Mingyuan Zhou,Xiaoqian Shen,Mohamed Elhoseiny,Qi Liu,Guo-Jun Qi
発行日 2024-08-07 11:20:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク