要約
テキストと画像の両方の入力に基づいて最大102フレームのビデオを生成できる30Bパラメーターを備えた最先端のテキスト駆動型画像からビデオへの生成モデルであるStep-Video-Ti2Vを提示します。
このデータセットを使用して、テキスト駆動型の画像からビデオへの新しいベンチマークとしてステップバイド-Ti2V-Evalを構築し、Step-Video-Ti2Vをオープンソースと市販のTI2Vエンジンと比較します。
実験結果は、画像からビデオへの生成タスクにおけるStep-Video-Ti2Vの最先端のパフォーマンスを示しています。
step-video-ti2vとstep-video-ti2v-evalの両方は、https://github.com/stepfun-ai/step-video-ti2vで入手できます。
要約(オリジナル)
We present Step-Video-TI2V, a state-of-the-art text-driven image-to-video generation model with 30B parameters, capable of generating videos up to 102 frames based on both text and image inputs. We build Step-Video-TI2V-Eval as a new benchmark for the text-driven image-to-video task and compare Step-Video-TI2V with open-source and commercial TI2V engines using this dataset. Experimental results demonstrate the state-of-the-art performance of Step-Video-TI2V in the image-to-video generation task. Both Step-Video-TI2V and Step-Video-TI2V-Eval are available at https://github.com/stepfun-ai/Step-Video-TI2V.
arxiv情報
著者 | Haoyang Huang,Guoqing Ma,Nan Duan,Xing Chen,Changyi Wan,Ranchen Ming,Tianyu Wang,Bo Wang,Zhiying Lu,Aojie Li,Xianfang Zeng,Xinhao Zhang,Gang Yu,Yuhe Yin,Qiling Wu,Wen Sun,Kang An,Xin Han,Deshan Sun,Wei Ji,Bizhu Huang,Brian Li,Chenfei Wu,Guanzhe Huang,Huixin Xiong,Jiaxin He,Jianchang Wu,Jianlong Yuan,Jie Wu,Jiashuai Liu,Junjing Guo,Kaijun Tan,Liangyu Chen,Qiaohui Chen,Ran Sun,Shanshan Yuan,Shengming Yin,Sitong Liu,Wei Chen,Yaqi Dai,Yuchu Luo,Zheng Ge,Zhisheng Guan,Xiaoniu Song,Yu Zhou,Binxing Jiao,Jiansheng Chen,Jing Li,Shuchang Zhou,Xiangyu Zhang,Yi Xiu,Yibo Zhu,Heung-Yeung Shum,Daxin Jiang |
発行日 | 2025-03-14 10:01:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google