Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond

要約

オーディオSDSを紹介します。オーディオSDは、テキストコンディショニングされたオーディオ拡散モデルにスコア蒸留サンプリング(SDS)の一般化です。
SDSは最初は画像拡散を使用してテキストから3Dの世代向けに設計されていましたが、強力な生成型を個別のパラメトリック表現に蒸留するという中心的なアイデアは、オーディオドメインに拡張されます。
単一の前提条件モデルを活用すると、Audio-SDSは、特殊なデータセットを必要とせずに幅広いタスクを可能にします。
特に、オーディオSDが物理的に情報に基づいたインパクトサウンドシミュレーションをガイドし、FM合成パラメーターを校正し、プロンプト指定のソース分離を実行する方法を示します。
私たちの調査結果は、モダリティ全体で蒸留ベースの方法の汎用性を示し、オーディオタスクで生成プライアーを使用して将来の作業のための堅牢な基盤を確立します。

要約(オリジナル)

We introduce Audio-SDS, a generalization of Score Distillation Sampling (SDS) to text-conditioned audio diffusion models. While SDS was initially designed for text-to-3D generation using image diffusion, its core idea of distilling a powerful generative prior into a separate parametric representation extends to the audio domain. Leveraging a single pretrained model, Audio-SDS enables a broad range of tasks without requiring specialized datasets. In particular, we demonstrate how Audio-SDS can guide physically informed impact sound simulations, calibrate FM-synthesis parameters, and perform prompt-specified source separation. Our findings illustrate the versatility of distillation-based methods across modalities and establish a robust foundation for future work using generative priors in audio tasks.

arxiv情報

著者 Jessie Richter-Powell,Antonio Torralba,Jonathan Lorraine
発行日 2025-05-07 17:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.LG, cs.MM, cs.SD, eess.AS, H.5.1 パーマリンク