要約
サウンド マッチング アルゴリズムは、パラメトリック オーディオ合成によってターゲット波形を近似しようとします。
ディープ ニューラル ネットワークは、持続的なハーモニック トーンのマッチングにおいて有望な結果を達成しています。
ただし、ターゲットが非定常で調和のとれていない場合 (パーカッションなど) には、この作業はより困難になります。
この問題は、損失関数の不十分さに起因すると考えられます。
一方では、「P 損失」として知られるパラメトリック ドメインの平均二乗誤差は単純で高速ですが、各パラメーターの異なる知覚的重要性に対応できません。
一方、「スペクトル損失」として知られるスペクトル時間領域の平均二乗誤差は、知覚的に動機付けられ、微分可能なデジタル信号処理 (DDSP) に役立ちます。
それでも、スペクトル損失はピッチ間隔の予測因子としては不十分であり、その勾配は計算コストが高くなる可能性があります。
したがって、収束が遅くなります。
この難問に対して、私たちは知覚神経物理損失(PNP)を提示します。
PNP は、トレーニング中の P 損失と同じくらい高速でありながら、スペクトル損失の最適な二次近似です。
デコーダーとしての物理モデリング合成とスペクトル表現としての結合時間-周波数散乱変換 (JTFS) を使用して PNP をインスタンス化します。
他の損失関数と比較して、合成ドラム サウンドのマッチングの可能性を示します。
要約(オリジナル)
Sound matching algorithms seek to approximate a target waveform by parametric audio synthesis. Deep neural networks have achieved promising results in matching sustained harmonic tones. However, the task is more challenging when targets are nonstationary and inharmonic, e.g., percussion. We attribute this problem to the inadequacy of loss function. On one hand, mean square error in the parametric domain, known as ‘P-loss’, is simple and fast but fails to accommodate the differing perceptual significance of each parameter. On the other hand, mean square error in the spectrotemporal domain, known as ‘spectral loss’, is perceptually motivated and serves in differentiable digital signal processing (DDSP). Yet, spectral loss is a poor predictor of pitch intervals and its gradient may be computationally expensive; hence a slow convergence. Against this conundrum, we present Perceptual-Neural-Physical loss (PNP). PNP is the optimal quadratic approximation of spectral loss while being as fast as P-loss during training. We instantiate PNP with physical modeling synthesis as decoder and joint time-frequency scattering transform (JTFS) as spectral representation. We demonstrate its potential on matching synthetic drum sounds in comparison with other loss functions.
arxiv情報
著者 | Han Han,Vincent Lostanlen,Mathieu Lagrange |
発行日 | 2023-03-13 17:16:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google