要約
英語と中国語の両方をきめ細かく理解できるテキストから画像への拡散変換機能である Hunyuan-DiT を紹介します。
Hunyuan-DiT を構築するために、トランスフォーマーの構造、テキスト エンコーダー、および位置エンコーディングを慎重に設計しました。
また、反復的なモデル最適化のためにデータを更新および評価するためのデータ パイプライン全体を最初から構築します。
きめ細かい言語理解のために、マルチモーダル大規模言語モデルをトレーニングして画像のキャプションを調整します。
最後に、Hunyuan-DiT はユーザーと複数回にわたるマルチモーダルな対話を実行し、コンテキストに応じて画像を生成および調整できます。
Hunyuan-DiT は、50 名を超えるプロの人間評価者による総合的な人間評価プロトコルを通じて、他のオープンソース モデルと比較して、中国語から画像への生成において新しい最先端を確立しています。
コードと事前トレーニングされたモデルは、github.com/Tencent/HunyuanDiT で公開されています。
要約(オリジナル)
We present Hunyuan-DiT, a text-to-image diffusion transformer with fine-grained understanding of both English and Chinese. To construct Hunyuan-DiT, we carefully design the transformer structure, text encoder, and positional encoding. We also build from scratch a whole data pipeline to update and evaluate data for iterative model optimization. For fine-grained language understanding, we train a Multimodal Large Language Model to refine the captions of the images. Finally, Hunyuan-DiT can perform multi-turn multimodal dialogue with users, generating and refining images according to the context. Through our holistic human evaluation protocol with more than 50 professional human evaluators, Hunyuan-DiT sets a new state-of-the-art in Chinese-to-image generation compared with other open-source models. Code and pretrained models are publicly available at github.com/Tencent/HunyuanDiT
arxiv情報
著者 | Zhimin Li,Jianwei Zhang,Qin Lin,Jiangfeng Xiong,Yanxin Long,Xinchi Deng,Yingfang Zhang,Xingchao Liu,Minbin Huang,Zedong Xiao,Dayou Chen,Jiajun He,Jiahao Li,Wenyue Li,Chen Zhang,Rongwei Quan,Jianxiang Lu,Jiabin Huang,Xiaoyan Yuan,Xiaoxiao Zheng,Yixuan Li,Jihong Zhang,Chao Zhang,Meng Chen,Jie Liu,Zheng Fang,Weiyan Wang,Jinbao Xue,Yangyu Tao,Jianchen Zhu,Kai Liu,Sihuan Lin,Yifu Sun,Yun Li,Dongdong Wang,Mingtao Chen,Zhichao Hu,Xiao Xiao,Yan Chen,Yuhong Liu,Wei Liu,Di Wang,Yong Yang,Jie Jiang,Qinglin Lu |
発行日 | 2024-05-14 16:33:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google