Latent Swap Joint Diffusion for Long-Form Audio Generation

要約

グローバルビューの拡散または反復生成を使用した長期のオーディオ生成に関する以前の作業には、重要なトレーニングまたは推論コストが必要です。
パノラマ生成のマルチビュー関節拡散の最近の進歩は効率的なオプションを提供しますが、彼らは深刻なオーバーラップ歪みと高いクロスビューの一貫性コストを備えたスペクトル生成と闘っています。
最初に、潜在マップの接続性継承を介してこの現象を探索し、潜在マップの高周波成分を平均的に滑らかに滑らかにすることを明らかにします。
これらの問題に対処するために、複数の拡散を同期させるフレームレベルの潜在スワップフレームワークであるスワップフォワード(SAFA)を提案します。
そのコアでは、隣接するビュー間に双方向のセルフループ潜在スワップが適用され、段階的な拡散軌道を活用して、低周波成分を破壊することなく高周波成分を適応的に強化します。
さらに、クロスビューの一貫性を確保するために、初期段階では、各サブビューの参照領域と非オーバーラップ領域の間に一方向の参照誘導潜在スワップが適用され、集中軌道ガイダンスが提供されます。
定量的および定性的実験は、SAFAが既存の関節拡散法やトレーニングベースの長いオーディオ生成モデルを大幅に上回ることを示しています。
さらに、パノラマの世代にも適応し、効率が向上し、モデルの一般化可能性を備えた同等の最先端のパフォーマンスを達成することがわかりました。
プロジェクトページは、https://swapforward.github.io/で入手できます。

要約(オリジナル)

Previous work on long-form audio generation using global-view diffusion or iterative generation demands significant training or inference costs. While recent advancements in multi-view joint diffusion for panoramic generation provide an efficient option, they struggle with spectrum generation with severe overlap distortions and high cross-view consistency costs. We initially explore this phenomenon through the connectivity inheritance of latent maps and uncover that averaging operations excessively smooth the high-frequency components of the latent map. To address these issues, we propose Swap Forward (SaFa), a frame-level latent swap framework that synchronizes multiple diffusions to produce a globally coherent long audio with more spectrum details in a forward-only manner. At its core, the bidirectional Self-Loop Latent Swap is applied between adjacent views, leveraging stepwise diffusion trajectory to adaptively enhance high-frequency components without disrupting low-frequency components. Furthermore, to ensure cross-view consistency, the unidirectional Reference-Guided Latent Swap is applied between the reference and the non-overlap regions of each subview during the early stages, providing centralized trajectory guidance. Quantitative and qualitative experiments demonstrate that SaFa significantly outperforms existing joint diffusion methods and even training-based long audio generation models. Moreover, we find that it also adapts well to panoramic generation, achieving comparable state-of-the-art performance with greater efficiency and model generalizability. Project page is available at https://swapforward.github.io/.

arxiv情報

著者 Yusheng Dai,Chenxi Wang,Chang Li,Chen Wang,Jun Du,Kewei Li,Ruoyu Wang,Jiefeng Ma,Lei Sun,Jianqing Gao
発行日 2025-02-07 18:02:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS パーマリンク