Generating Sample-Based Musical Instruments Using Neural Audio Codec Language Models

要約

この論文では、テキストまたは参照音声プロンプトに基づいてサンプルベースの楽器を自動生成するためのニューラル オーディオ コーデック言語モデルの使用を提案および調査します。
私たちのアプローチは、生成オーディオ フレームワークを拡張して、88 キーのスペクトル、ベロシティ、および組み合わされたテキスト/オーディオの埋め込み全体にわたるピッチを条件付けします。
私たちは、生成された楽器内で音色の一貫性を維持することが大きな課題であると認識しています。
この問題に取り組むために、3 つの異なる調整スキームを導入します。
私たちは客観的な指標と人間によるリスニングテストを通じて私たちの手法を分析し、私たちのアプローチが魅力的な楽器を生み出すことができることを実証しています。
具体的には、生成された楽器の音色の一貫性を評価し、テキストから楽器へのケースに対照言語音声事前トレーニング (CLAP) の平均スコアを適応させるための新しい客観的な指標を導入します。その単純な適用はこのタスクの評価には適していないことに注意してください。

私たちの調査結果は、音色の一貫性、生成されたサンプルの品質、入力プロンプトへの対応の間の複雑な相互作用を明らかにしました。

要約(オリジナル)

In this paper, we propose and investigate the use of neural audio codec language models for the automatic generation of sample-based musical instruments based on text or reference audio prompts. Our approach extends a generative audio framework to condition on pitch across an 88-key spectrum, velocity, and a combined text/audio embedding. We identify maintaining timbral consistency within the generated instruments as a major challenge. To tackle this issue, we introduce three distinct conditioning schemes. We analyze our methods through objective metrics and human listening tests, demonstrating that our approach can produce compelling musical instruments. Specifically, we introduce a new objective metric to evaluate the timbral consistency of the generated instruments and adapt the average Contrastive Language-Audio Pretraining (CLAP) score for the text-to-instrument case, noting that its naive application is unsuitable for assessing this task. Our findings reveal a complex interplay between timbral consistency, the quality of generated samples, and their correspondence to the input prompt.

arxiv情報

著者 Shahan Nercessian,Johannes Imort,Ninon Devis,Frederik Blang
発行日 2024-07-22 13:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク