要約
DITベースのビデオ生成のためのリアルタイムで高品質でトレーニングなしのアプローチであるPyramid Attention Broadcast(PAB)を紹介します。
私たちの方法は、拡散プロセスの注意の違いがU字型のパターンを示すという観察結果に基づいており、有意な冗長性を示しています。
これは、ピラミッドスタイルの後続のステップに注意出力をブロードキャストすることで緩和します。
それは、最高の効率のための分散に基づいて、各注意に異なるブロードキャスト戦略を適用します。
さらに、より効率的な分散推論のために、ブロードキャストシーケンスの並列を導入します。
PABは、ベースラインと比較して3つのモデルで最大10.5倍のスピードアップを実証し、最大720pのビデオでリアルタイムの生成を達成しています。
私たちのシンプルでありながら効果的な方法は、堅牢なベースラインとして機能し、ビデオ生成のための将来の研究と応用を促進すると予想しています。
要約(オリジナル)
We present Pyramid Attention Broadcast (PAB), a real-time, high quality and training-free approach for DiT-based video generation. Our method is founded on the observation that attention difference in the diffusion process exhibits a U-shaped pattern, indicating significant redundancy. We mitigate this by broadcasting attention outputs to subsequent steps in a pyramid style. It applies different broadcast strategies to each attention based on their variance for best efficiency. We further introduce broadcast sequence parallel for more efficient distributed inference. PAB demonstrates up to 10.5x speedup across three models compared to baselines, achieving real-time generation for up to 720p videos. We anticipate that our simple yet effective method will serve as a robust baseline and facilitate future research and application for video generation.
arxiv情報
著者 | Xuanlei Zhao,Xiaolong Jin,Kai Wang,Yang You |
発行日 | 2025-01-29 16:02:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google