YaART: Yet Another ART Rendering Technology

要約

急速に進歩している生成モデルの分野では、効率的で忠実度の高いテキストから画像への拡散システムの開発が重要なフロンティアとなっています。
この研究では、人間のフィードバックからの強化学習 (RLHF) を使用して、人間の好みに合わせた新しいプロダクショングレードのテキストから画像へのカスケード拡散モデルである YaART を紹介します。
YaART の開発中、私たちはモデルとトレーニング データセットのサイズの選択に特に焦点を当てています。これは、テキストから画像へのカスケード拡散モデルについてはこれまで体系的に調査されていなかった側面です。
特に、これらの選択が、実際には非常に重要であるトレーニング プロセスの効率と生成された画像の品質の両方にどのような影響を与えるかを包括的に分析します。
さらに、より高品質の画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証し、拡散モデルのトレーニングのより効率的なシナリオを確立します。
品質の観点から、YaART は多くの既存の最先端モデルよりも常にユーザーに好まれています。

要約(オリジナル)

In the rapidly progressing field of generative models, the development of efficient and high-fidelity text-to-image diffusion systems represents a significant frontier. This study introduces YaART, a novel production-grade text-to-image cascaded diffusion model aligned to human preferences using Reinforcement Learning from Human Feedback (RLHF). During the development of YaART, we especially focus on the choices of the model and training dataset sizes, the aspects that were not systematically investigated for text-to-image cascaded diffusion models before. In particular, we comprehensively analyze how these choices affect both the efficiency of the training process and the quality of the generated images, which are highly important in practice. Furthermore, we demonstrate that models trained on smaller datasets of higher-quality images can successfully compete with those trained on larger datasets, establishing a more efficient scenario of diffusion models training. From the quality perspective, YaART is consistently preferred by users over many existing state-of-the-art models.

arxiv情報

著者 Sergey Kastryulin,Artem Konev,Alexander Shishenya,Eugene Lyapustin,Artem Khurshudov,Alexander Tselousov,Nikita Vinokurov,Denis Kuznedelev,Alexander Markovich,Grigoriy Livshits,Alexey Kirillov,Anastasiia Tabisheva,Liubov Chubarova,Marina Kaminskaia,Alexander Ustyuzhanin,Artemii Shvetsov,Daniil Shlenskii,Valerii Startsev,Dmitrii Kornilov,Mikhail Romanov,Artem Babenko,Sergei Ovcharenko,Valentin Khrulkov
発行日 2024-04-08 16:51:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク