Sine, Transient, Noise Neural Modeling of Piano Notes

要約

この論文では、ピアノサウンドをエミュレートするための新しい方法を紹介します。
サイン、トランジェント、およびノイズ分解を利用して、ピアノの音を再現する微分可能なスペクトル モデリング シンセサイザーを設計することを提案します。
3 つのサブモジュールはピアノ録音からこれらのコンポーネントを学習し、対応する倍音、トランジェント、ノイズ信号を生成します。
エミュレーションを 3 つの独立してトレーニング可能なモデルに分割することで、モデリング タスクの複雑さが軽減されます。
準高調波成分は、物理学から導き出された公式に導かれた微分可能な正弦波モデルを使用して生成され、そのパラメーターはオーディオ録音から自動的に推定されます。
ノイズ サブモジュールは学習可能な時変フィルターを使用し、過渡現象は深い畳み込みネットワークを使用して生成されます。
特異な音符から、畳み込みベースのネットワークを使用して、トリコードの異なるキー間の結合をエミュレートします。
結果は、モデルがターゲットの部分的な分布と一致する一方で、スペクトルのより高い部分のエネルギーがより多くの課題を引き起こすと予測していることを示しています。
過渡成分とノイズ成分のスペクトルのエネルギー分布は全体的に正確です。
このモデルは計算効率とメモリ効率が向上していますが、知覚テストにより、ノートのアタックフェーズを正確にモデル化する際の限界が明らかになりました。
それにもかかわらず、単音とトリコードのエミュレートにおいては、一般に知覚的な正確さを実現します。

要約(オリジナル)

This paper introduces a novel method for emulating piano sounds. We propose to exploit the sine, transient, and noise decomposition to design a differentiable spectral modeling synthesizer replicating piano notes. Three sub-modules learn these components from piano recordings and generate the corresponding harmonic, transient, and noise signals. Splitting the emulation into three independently trainable models reduces the modeling tasks’ complexity. The quasi-harmonic content is produced using a differentiable sinusoidal model guided by physics-derived formulas, whose parameters are automatically estimated from audio recordings. The noise sub-module uses a learnable time-varying filter, and the transients are generated using a deep convolutional network. From singular notes, we emulate the coupling between different keys in trichords with a convolutional-based network. Results show the model matches the partial distribution of the target while predicting the energy in the higher part of the spectrum presents more challenges. The energy distribution in the spectra of the transient and noise components is accurate overall. While the model is more computationally and memory efficient, perceptual tests reveal limitations in accurately modeling the attack phase of notes. Despite this, it generally achieves perceptual accuracy in emulating single notes and trichords.

arxiv情報

著者 Riccardo Simionato,Stefano Fasciani
発行日 2024-09-10 13:48:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク