Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models

要約

ディープジェネレーティブモデルの最近の進歩は、音楽制作に新たな機会をもたらしていますが、高い計算要求や限られたオーディオ品質などの課題ももたらしています。
さらに、現在のシステムはテキスト入力のみに依存することが多く、通常は完全な楽曲の作成に重点を置いているため、音楽制作の既存のワークフローと互換性がありません。
これらの問題に対処するために、あらゆる音楽的状況に適応できる高品質の楽器伴奏を生成するように設計された潜在拡散モデル「Diff-A-Riff」を導入します。
このモデルは、オーディオ参照、テキスト プロンプト、またはその両方による制御を提供し、推論時間とメモリ使用量を大幅に削減しながら 48kHz の擬似ステレオ オーディオを生成します。
付属の Web サイト sonycslparis.github.io/diffariff-companion/ で入手可能な広範な例を使用して、客観的なメトリクスと主観的なリスニング テストを通じてモデルの機能を実証します。

要約(オリジナル)

Recent advancements in deep generative models present new opportunities for music production but also pose challenges, such as high computational demands and limited audio quality. Moreover, current systems frequently rely solely on text input and typically focus on producing complete musical pieces, which is incompatible with existing workflows in music production. To address these issues, we introduce ‘Diff-A-Riff,’ a Latent Diffusion Model designed to generate high-quality instrumental accompaniments adaptable to any musical context. This model offers control through either audio references, text prompts, or both, and produces 48kHz pseudo-stereo audio while significantly reducing inference time and memory usage. We demonstrate the model’s capabilities through objective metrics and subjective listening tests, with extensive examples available on the accompanying website: sonycslparis.github.io/diffariff-companion/

arxiv情報

著者 Javier Nistal,Marco Pasini,Cyran Aouameur,Maarten Grachten,Stefan Lattner
発行日 2024-06-12 16:34:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク