HunyuanVideo: A Systematic Framework For Large Video Generative Models

要約

ビデオ生成における最近の進歩は、個人と業界の両方の日常生活に大きな影響を与えています。
ただし、主要なビデオ生成モデルはクローズドソースのままであり、その結果、業界の能力と一般に利用可能なものとの間に顕著なパフォーマンスのギャップが生じています。
このレポートでは、主要なクローズドソース モデルと同等、またはそれを超えるビデオ生成パフォーマンスを実証する革新的なオープンソース ビデオ基盤モデルである HunyuanVideo を紹介します。
HunyuanVideo には、データ キュレーション、高度なアーキテクチャ設計、進歩的なモデルのスケーリングとトレーニング、大規模なモデルのトレーニングと推論に合わせた効率的なインフラストラクチャなど、いくつかの重要な要素を統合する包括的なフレームワークが含まれています。
その結果、130 億を超えるパラメーターを使用してビデオ生成モデルをトレーニングすることに成功し、これはすべてのオープンソース モデルの中で最大のものとなりました。
私たちは広範な実験を実施し、高いビジュアル品質、モーション ダイナミクス、テキストとビデオの位置合わせ、高度な撮影技術を確保するために一連の的を絞ったデザインを実装しました。
専門家による評価によると、HunyuanVideo は、Runway Gen-3、Luma 1.6、および 3 つの最高パフォーマンスの中国ビデオ生成モデルを含む、これまでの最先端のモデルを上回っています。
基礎モデルとそのア​​プリケーションのコードをリリースすることで、クローズドソース コミュニティとオープンソース コミュニティの間のギャップを埋めることを目指しています。
この取り組みにより、コミュニティ内の個人が自分のアイデアを実験できるようになり、よりダイナミックで活気のあるビデオ生成エコシステムが促進されます。
コードは https://github.com/Tencent/HunyuanVideo で公開されています。

要約(オリジナル)

Recent advancements in video generation have significantly impacted daily life for both individuals and industries. However, the leading video generation models remain closed-source, resulting in a notable performance gap between industry capabilities and those available to the public. In this report, we introduce HunyuanVideo, an innovative open-source video foundation model that demonstrates performance in video generation comparable to, or even surpassing, that of leading closed-source models. HunyuanVideo encompasses a comprehensive framework that integrates several key elements, including data curation, advanced architectural design, progressive model scaling and training, and an efficient infrastructure tailored for large-scale model training and inference. As a result, we successfully trained a video generative model with over 13 billion parameters, making it the largest among all open-source models. We conducted extensive experiments and implemented a series of targeted designs to ensure high visual quality, motion dynamics, text-video alignment, and advanced filming techniques. According to evaluations by professionals, HunyuanVideo outperforms previous state-of-the-art models, including Runway Gen-3, Luma 1.6, and three top-performing Chinese video generative models. By releasing the code for the foundation model and its applications, we aim to bridge the gap between closed-source and open-source communities. This initiative will empower individuals within the community to experiment with their ideas, fostering a more dynamic and vibrant video generation ecosystem. The code is publicly available at https://github.com/Tencent/HunyuanVideo.

arxiv情報

著者 Weijie Kong,Qi Tian,Zijian Zhang,Rox Min,Zuozhuo Dai,Jin Zhou,Jiangfeng Xiong,Xin Li,Bo Wu,Jianwei Zhang,Kathrina Wu,Qin Lin,Junkun Yuan,Yanxin Long,Aladdin Wang,Andong Wang,Changlin Li,Duojun Huang,Fang Yang,Hao Tan,Hongmei Wang,Jacob Song,Jiawang Bai,Jianbing Wu,Jinbao Xue,Joey Wang,Kai Wang,Mengyang Liu,Pengyu Li,Shuai Li,Weiyan Wang,Wenqing Yu,Xinchi Deng,Yang Li,Yi Chen,Yutao Cui,Yuanbo Peng,Zhentao Yu,Zhiyu He,Zhiyong Xu,Zixiang Zhou,Zunnan Xu,Yangyu Tao,Qinglin Lu,Songtao Liu,Daquan Zhou,Hongfa Wang,Yong Yang,Di Wang,Yuhong Liu,Jie Jiang,Caesar Zhong
発行日 2024-12-06 17:02:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク