要約
拡散モデルは、視覚コンテンツの生成において顕著な機能を実証していますが、推論中の計算コストが高いため、展開するのが難しいままです。
この計算上の負担は、主に画像またはビデオ解像度に関する自己触たちの二次複雑さから生じます。
既存の加速方法はしばしば出力の品質を損なうか、費用のかかる再訓練を必要としますが、ほとんどの拡散モデルは低解像度で事前に訓練されており、パフォーマンスを低下させることなく、より効率的な推論のためにこれらの低解像度のプライアーを活用する機会を提示していることがわかります。
この作業では、ボトルネックサンプリングを導入します。ボトルネックサンプリングは、出力の忠実度を維持しながら計算オーバーヘッドを削減するために低解像度のプライアーを活用するトレーニングフリーのフレームワークです。
ボトルネックのサンプリングは、高位の高さの除去ワークフローに従います。中間ステップで低解像度で動作しながら、初期段階と最終段階で高解像度の除去を実行します。
エイリアシングとぼやけのアーティファクトを緩和するために、解像度の遷移ポイントをさらに改良し、各段階で除去タイムステップを適応的にシフトします。
画像生成タスクとビデオ生成タスクの両方でボトルネックのサンプリングを評価します。広範な実験では、画像生成の場合は最大3 $ \ Times $、ビデオ生成で2.5 $ \ Times $だけであることが示されています。
コードは、https://github.com/tyfeld/bottleneck-samplingで入手できます
要約(オリジナル)
Diffusion models have demonstrated remarkable capabilities in visual content generation but remain challenging to deploy due to their high computational cost during inference. This computational burden primarily arises from the quadratic complexity of self-attention with respect to image or video resolution. While existing acceleration methods often compromise output quality or necessitate costly retraining, we observe that most diffusion models are pre-trained at lower resolutions, presenting an opportunity to exploit these low-resolution priors for more efficient inference without degrading performance. In this work, we introduce Bottleneck Sampling, a training-free framework that leverages low-resolution priors to reduce computational overhead while preserving output fidelity. Bottleneck Sampling follows a high-low-high denoising workflow: it performs high-resolution denoising in the initial and final stages while operating at lower resolutions in intermediate steps. To mitigate aliasing and blurring artifacts, we further refine the resolution transition points and adaptively shift the denoising timesteps at each stage. We evaluate Bottleneck Sampling on both image and video generation tasks, where extensive experiments demonstrate that it accelerates inference by up to 3$\times$ for image generation and 2.5$\times$ for video generation, all while maintaining output quality comparable to the standard full-resolution sampling process across multiple evaluation metrics. Code is available at: https://github.com/tyfeld/Bottleneck-Sampling
arxiv情報
著者 | Ye Tian,Xin Xia,Yuxi Ren,Shanchuan Lin,Xing Wang,Xuefeng Xiao,Yunhai Tong,Ling Yang,Bin Cui |
発行日 | 2025-03-24 17:59:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google