On Statistical Rates and Provably Efficient Criteria of Latent Diffusion Transformers (DiTs)

要約

我々は、低次元の線形潜在空間仮定の下で、潜在拡散変換器(DiT)の統計的および計算上の限界を調査します。
統計的に、DiTs スコア関数の普遍近似とサンプルの複雑さ、および初期データの分布回復特性を研究します。
具体的には、穏やかなデータ仮定の下で、潜在空間次元において準線形である、潜在 DiT のスコア ネットワークの近似誤差限界を導出します。
さらに、対応するサンプルの複雑さの限界を導出し、推定スコア関数から生成されたデータ分布が元の分布に近い領域に向かって収束することを示します。
計算的には、強力な指数関数的時間仮説 (SETH) を仮定して、潜在 DiT の前方推論と後方計算の両方の難しさを特徴付けます。
前方推論では、考えられるすべての潜在 DiT 推論アルゴリズムの効率的な基準を特定し、ほぼ線形の時間推論に向けて効率を高めることで理論を紹介します。
逆方向計算では、アルゴリズムの高速化を実現するために、DiT トレーニングの勾配計算内の低ランク構造を利用します。
具体的には、DiTs 勾配を、誤差が制限された一連の連鎖された低ランク近似としてキャストすることにより、このような高速化により、ほぼ線形の時間潜在 DiTs トレーニングが達成されることを示します。
低次元の仮定の下では、統計的レートと計算効率はすべて部分空間の次元によって支配されることを示し、潜在的な DiT が初期データの高次元性に関連する課題を回避する可能性があることを示唆しています。

要約(オリジナル)

We investigate the statistical and computational limits of latent Diffusion Transformers (DiTs) under the low-dimensional linear latent space assumption. Statistically, we study the universal approximation and sample complexity of the DiTs score function, as well as the distribution recovery property of the initial data. Specifically, under mild data assumptions, we derive an approximation error bound for the score network of latent DiTs, which is sub-linear in the latent space dimension. Additionally, we derive the corresponding sample complexity bound and show that the data distribution generated from the estimated score function converges toward a proximate area of the original one. Computationally, we characterize the hardness of both forward inference and backward computation of latent DiTs, assuming the Strong Exponential Time Hypothesis (SETH). For forward inference, we identify efficient criteria for all possible latent DiTs inference algorithms and showcase our theory by pushing the efficiency toward almost-linear time inference. For backward computation, we leverage the low-rank structure within the gradient computation of DiTs training for possible algorithmic speedup. Specifically, we show that such speedup achieves almost-linear time latent DiTs training by casting the DiTs gradient as a series of chained low-rank approximations with bounded error. Under the low-dimensional assumption, we show that the statistical rates and the computational efficiency are all dominated by the dimension of the subspace, suggesting that latent DiTs have the potential to bypass the challenges associated with the high dimensionality of initial data.

arxiv情報

著者 Jerry Yao-Chieh Hu,Weimin Wu,Zhao Song,Han Liu
発行日 2024-10-31 16:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク