要約
演奏用のギターサウンドを合成することは、同時発音数が多く表現の多様性が大きいため、非常に困難な作業です。
最近、ディープ生成モデルは、多くの場合汎用 MIDI 入力を使用して、楽譜から表現力豊かなポリフォニック楽器サウンドを合成する際に有望な結果を示しています。
この研究では、ギターロールと呼ばれる、楽器へのカスタマイズされた入力表現を備えた表現力豊かなアコースティック ギター サウンド合成モデルを提案します。
長期一貫性のあるオーディオを生成できる拡散ベースのアウトペイントを使用して、提案されたアプローチを実装します。
MIDI/オーディオペアのデータセットの不足を克服するために、既存のギター データセットだけでなく、高品質のサンプルベースのギター シンセサイザーから収集したデータも使用しました。
定量的および定性的評価を通じて、提案したモデルがベースラインモデルよりも高い音質を持ち、以前の主要な研究よりもリアルな音色サウンドを生成することを示します。
要約(オリジナル)
Synthesizing performing guitar sound is a highly challenging task due to the polyphony and high variability in expression. Recently, deep generative models have shown promising results in synthesizing expressive polyphonic instrument sounds from music scores, often using a generic MIDI input. In this work, we propose an expressive acoustic guitar sound synthesis model with a customized input representation to the instrument, which we call guitarroll. We implement the proposed approach using diffusion-based outpainting which can generate audio with long-term consistency. To overcome the lack of MIDI/audio-paired datasets, we used not only an existing guitar dataset but also collected data from a high quality sample-based guitar synthesizer. Through quantitative and qualitative evaluations, we show that our proposed model has higher audio quality than the baseline model and generates more realistic timbre sounds than the previous leading work.
arxiv情報
著者 | Hounsu Kim,Soonbeom Choi,Juhan Nam |
発行日 | 2024-01-24 14:44:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google