SkyScript-100M: 1,000,000,000 Pairs of Scripts and Shooting Scripts for Short Drama

要約

短編ドラマの脚本作成には、シーンやショット言語などの情報を含む高品質の撮影脚本を作成することが不可欠です。
インターネットから 6,660 の人気の短編ドラマ エピソードを収集しており、各エピソードには平均 100 の短編エピソードがあり、短編エピソードの総数は約 80,000、総再生時間は約 2,000 時間、合計 10 テラバイト (TB) になります。
各話ごとにキーフレームの抽出とアノテーションを行い、約1,000万本の撮影スクリプトを取得します。
抽出した撮影台本に対して、自社開発の大型短編ドラマ生成モデルSkyReelsをベースに100回の台本修復を行います。
これにより、SkyScript-100M と呼ばれる、短編ドラマの台本と撮影台本の 10 億組を含むデータセットが生成されます。
SkyScript-100M と既存のデータセットを詳細に比較し、SkyScript-100M に基づいて達成できるいくつかのより深い洞察を示します。
SkyScript-100M に基づいて、研究者はいくつかのより深く広範囲にわたるスクリプト最適化目標を達成することができ、これによりテキストからビデオへの分野全体のパラダイムシフトが推進され、短編ドラマビデオ生成の分野が大幅に進歩する可能性があります。
データとコードは https://github.com/vaew/SkyScript-100M で入手できます。

要約(オリジナル)

Generating high-quality shooting scripts containing information such as scene and shot language is essential for short drama script generation. We collect 6,660 popular short drama episodes from the Internet, each with an average of 100 short episodes, and the total number of short episodes is about 80,000, with a total duration of about 2,000 hours and totaling 10 terabytes (TB). We perform keyframe extraction and annotation on each episode to obtain about 10,000,000 shooting scripts. We perform 100 script restorations on the extracted shooting scripts based on our self-developed large short drama generation model SkyReels. This leads to a dataset containing 1,000,000,000 pairs of scripts and shooting scripts for short dramas, called SkyScript-100M. We compare SkyScript-100M with the existing dataset in detail and demonstrate some deeper insights that can be achieved based on SkyScript-100M. Based on SkyScript-100M, researchers can achieve several deeper and more far-reaching script optimization goals, which may drive a paradigm shift in the entire field of text-to-video and significantly advance the field of short drama video generation. The data and code are available at https://github.com/vaew/SkyScript-100M.

arxiv情報

著者 Jing Tang,Quanlu Jia,Yuqiang Xie,Zeyu Gong,Xiang Wen,Jiayi Zhang,Yalong Guo,Guibin Chen,Jiangping Yang
発行日 2024-08-28 07:34:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク