Inference Acceleration of Autoregressive Normalizing Flows by Selective Jacobi Decoding

要約

フローの正常化は、理論的な厳密さ、分析的対数尤度計算、エンドツーエンドのトレーニングなどの利点を持つ有望な生成モデルです。
ただし、逆転性と扱いやすいヤコビアン計算を確保するためのアーキテクチャの制約により、表現力のある力と実用的な使いやすさが制限されます。
最近の進歩は、自動回帰モデリングを利用して、表現力と生成の品質を大幅に向上させています。
ただし、このようなシーケンシャルモデリングは、推論中の並列計算を本質的に制限し、実用的な展開を妨げる遅い発電につながります。
このホワイトペーパーでは、最初に、高品質のサンプルを生成するために、推論における厳密な連続依存性が不要であることを特定します。
シーケンシャルモデリングのパッチは、前のすべてのパッチを厳密に条件付けすることなく近似できることが観察されます。
さらに、モデルは、初期層での依存性冗長性が低く、後続の層でより高い冗長性を示す傾向があります。
これらの観察を活用して、並行反復的最適化を通じて自己回帰推論を加速する選択的なJacobiデコード(SEJD)戦略を提案します。
理論分析は、メソッドの超線形収束率を示し、必要な反復の数が元のシーケンシャルアプローチよりも大きくないことを保証します。
複数のデータセットにわたる経験的評価は、加速手法の一般性と有効性を検証します。
実験は、生成の品質と忠実度を維持しながら、推論の最大4.7倍の大幅な速度の改善を示しています。

要約(オリジナル)

Normalizing flows are promising generative models with advantages such as theoretical rigor, analytical log-likelihood computation, and end-to-end training. However, the architectural constraints to ensure invertibility and tractable Jacobian computation limit their expressive power and practical usability. Recent advancements utilize autoregressive modeling, significantly enhancing expressive power and generation quality. However, such sequential modeling inherently restricts parallel computation during inference, leading to slow generation that impedes practical deployment. In this paper, we first identify that strict sequential dependency in inference is unnecessary to generate high-quality samples. We observe that patches in sequential modeling can also be approximated without strictly conditioning on all preceding patches. Moreover, the models tend to exhibit low dependency redundancy in the initial layer and higher redundancy in subsequent layers. Leveraging these observations, we propose a selective Jacobi decoding (SeJD) strategy that accelerates autoregressive inference through parallel iterative optimization. Theoretical analyses demonstrate the method’s superlinear convergence rate and guarantee that the number of iterations required is no greater than the original sequential approach. Empirical evaluations across multiple datasets validate the generality and effectiveness of our acceleration technique. Experiments demonstrate substantial speed improvements up to 4.7 times faster inference while keeping the generation quality and fidelity.

arxiv情報

著者 Jiaru Zhang,Juanwu Lu,Ziran Wang,Ruqi Zhang
発行日 2025-05-30 16:53:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク