Synthesizer Preset Interpolation using Transformer Auto-Encoders

要約

サウンド シンセサイザーは、現代の音楽制作で広く使用されていますが、習得するには専門的なスキルがますます必要になります。
この作業は、既存のサウンドから新しいサウンドを直感的に作成できるようにするために、プリセット間の補間、つまりすべてのサウンド合成パラメーターの値のセットに焦点を当てています。
マルチヘッドアテンションブロックを使用してプリセットを同時に処理し、畳み込みを使用してオーディオを処理するバイモーダルオートエンコーダーニューラルネットワークを導入します。
このモデルは、100 以上のパラメータを持つ一般的な周波数変調シンセサイザでテストされています。
実験では、モデルを関連するアーキテクチャおよびメソッドと比較し、よりスムーズな補間を実行することを実証しました。
トレーニング後、提案されたモデルは、ライブ補間またはサウンド デザイン タスク用の商用シンセサイザーに統合できます。

要約(オリジナル)

Sound synthesizers are widespread in modern music production but they increasingly require expert skills to be mastered. This work focuses on interpolation between presets, i.e., sets of values of all sound synthesis parameters, to enable the intuitive creation of new sounds from existing ones. We introduce a bimodal auto-encoder neural network, which simultaneously processes presets using multi-head attention blocks, and audio using convolutions. This model has been tested on a popular frequency modulation synthesizer with more than one hundred parameters. Experiments have compared the model to related architectures and methods, and have demonstrated that it performs smoother interpolations. After training, the proposed model can be integrated into commercial synthesizers for live interpolation or sound design tasks.

arxiv情報

著者 Gwendal Le Vaillant,Thierry Dutoit
発行日 2023-03-09 16:12:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク