要約
入力サウンドをエミュレートするためにシンセサイザーのパラメータを自動的に設定するシンセサイザーサウンドマッチングシステムは、初心者と経験豊富なミュージシャンにとって同様にシンセサイザープログラミングのプロセスをより速く簡単にすると同時に、シンセサイザーとの新しい対話手段も提供する可能性があります。
市場にある膨大な種類のシンセサイザーとその多くの複雑さを考慮すると、基礎となる合成アーキテクチャに関する最小限の知識や事前の仮定で機能する汎用サウンド マッチング システムが特に望まれています。
これを念頭に置いて、Audio Spectrogram Transformer に基づくシンセサイザー サウンド マッチング モデルを紹介します。
人気の Massive シンセサイザーからランダムに生成されたサンプルの大規模な合成データセットでトレーニングすることにより、このモデルの実行可能性を実証します。
このモデルが 16 個のパラメーターのセットから生成されたサンプルのパラメーターを再構成できることを示し、多層パーセプトロンおよび畳み込みニューラル ネットワークのベースラインと比較して忠実度が向上していることが強調されます。
また、ボーカルの模倣や他のシンセサイザーや楽器のサウンドをエミュレートする際のドメイン外モデルのパフォーマンスを示すオーディオ例も提供します。
要約(オリジナル)
Systems for synthesizer sound matching, which automatically set the parameters of a synthesizer to emulate an input sound, have the potential to make the process of synthesizer programming faster and easier for novice and experienced musicians alike, whilst also affording new means of interaction with synthesizers. Considering the enormous variety of synthesizers in the marketplace, and the complexity of many of them, general-purpose sound matching systems that function with minimal knowledge or prior assumptions about the underlying synthesis architecture are particularly desirable. With this in mind, we introduce a synthesizer sound matching model based on the Audio Spectrogram Transformer. We demonstrate the viability of this model by training on a large synthetic dataset of randomly generated samples from the popular Massive synthesizer. We show that this model can reconstruct parameters of samples generated from a set of 16 parameters, highlighting its improved fidelity relative to multi-layer perceptron and convolutional neural network baselines. We also provide audio examples demonstrating the out-of-domain model performance in emulating vocal imitations, and sounds from other synthesizers and musical instruments.
arxiv情報
著者 | Fred Bruford,Frederik Blang,Shahan Nercessian |
発行日 | 2024-07-23 16:58:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google