要約
拡散トランス (DiT) は、画像やビデオの生成など、コンテンツの再作成において魅力的な合成およびスケーリング特性をすでに実現しています。
ただし、DiT のスケーリングの法則はあまり調査されておらず、通常、特定のコンピューティング バジェットを考慮した最適なモデル サイズとデータ要件に関する正確な予測が提供されます。
したがって、1e17 から 6e18 FLOP までの幅広いコンピューティング バジェットにわたる実験が実施され、DiT におけるスケーリング則の存在が初めて確認されました。
具体的には、事前トレーニング DiT の損失も、関連するコンピューティングとのべき乗則の関係に従います。
スケーリング則に基づいて、最適なモデル サイズと必要なデータを決定できるだけでなく、1B パラメーターと 1e21 FLOP の計算バジェットを備えたモデルを考慮して、テキストから画像への生成損失を正確に予測することもできます。
さらに、さまざまなデータセットにわたっても、トレーニング前の損失の傾向が生成パフォーマンス (FID など) と一致することも実証します。これにより、コンピューティング品質から合成品質へのマッピングが補完され、モデルのパフォーマンスとデータ品質を評価する予測可能なベンチマークが提供されます。
低コストで。
要約(オリジナル)
Diffusion transformers (DiT) have already achieved appealing synthesis and scaling properties in content recreation, e.g., image and video generation. However, scaling laws of DiT are less explored, which usually offer precise predictions regarding optimal model size and data requirements given a specific compute budget. Therefore, experiments across a broad range of compute budgets, from 1e17 to 6e18 FLOPs are conducted to confirm the existence of scaling laws in DiT for the first time. Concretely, the loss of pretraining DiT also follows a power-law relationship with the involved compute. Based on the scaling law, we can not only determine the optimal model size and required data but also accurately predict the text-to-image generation loss given a model with 1B parameters and a compute budget of 1e21 FLOPs. Additionally, we also demonstrate that the trend of pre-training loss matches the generation performances (e.g., FID), even across various datasets, which complements the mapping from compute to synthesis quality and thus provides a predictable benchmark that assesses model performance and data quality at a reduced cost.
arxiv情報
著者 | Zhengyang Liang,Hao He,Ceyuan Yang,Bo Dai |
発行日 | 2024-10-10 17:56:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google