Resampling Filter Design for Multirate Neural Audio Effect Processing

要約

ニューラルネットワークは、特にギターアンプと歪みペダルのオーディオエフェクトモデリングで遍在しています。
このようなモデルの1つの制限は、トレーニングデータのサンプルレートがモデルの重みで暗黙的にエンコードされているため、推論で容易に調整できないことです。
最近の研究では、サンプルレートに依存しないシステムを近似するために、再発性ニューラルネットワークアーキテクチャの変更を調査し、元のトレーニングレートとは異なるレートでオーディオ処理を可能にしました。
この方法は、整数のオーバーサンプリングに適しており、非線形活性化機能によって引き起こされるエイリアシングを減らすことができます。
サンプルレートのわずかな部分的な変化の場合、分数遅延フィルターを使用してサンプルレートの独立性を近似できますが、場合によってはこの方法は完全に失敗します。
ここでは、代替ソリューションとしてのニューラルネットワークの入力と出力での信号の再サンプリングの使用を調査します。
いくつかの再サンプリングフィルターの設計を調査し、カイザーウィンドウFIRフィルターでカスケードされたハーフバンドIIRフィルターで構成される2段階の設計が、サンプルごとに多くの操作が少なく、以前に提案されたモデル調整方法と同様の結果を与えることができることを示します。
典型的なオーディオレートでの1ミリ秒のレイテンシよりも。
さらに、整数オーバーサンプリングのタスクについては補間とデシメーションフィルターを調査し、カスケードハーフバンドIIRおよびFIRデザインをモデル調整方法と組み合わせて使用​​して、さまざまな歪み効果モデルのエイリアシングを減らすことができることを示します。

要約(オリジナル)

Neural networks have become ubiquitous in audio effects modelling, especially for guitar amplifiers and distortion pedals. One limitation of such models is that the sample rate of the training data is implicitly encoded in the model weights and therefore not readily adjustable at inference. Recent work explored modifications to recurrent neural network architecture to approximate a sample rate independent system, enabling audio processing at a rate that differs from the original training rate. This method works well for integer oversampling and can reduce aliasing caused by nonlinear activation functions. For small fractional changes in sample rate, fractional delay filters can be used to approximate sample rate independence, but in some cases this method fails entirely. Here, we explore the use of signal resampling at the input and output of the neural network as an alternative solution. We investigate several resampling filter designs and show that a two-stage design consisting of a half-band IIR filter cascaded with a Kaiser window FIR filter can give similar or better results to the previously proposed model adjustment method with many fewer operations per sample and less than one millisecond of latency at typical audio rates. Furthermore, we investigate interpolation and decimation filters for the task of integer oversampling and show that cascaded half-band IIR and FIR designs can be used in conjunction with the model adjustment method to reduce aliasing in a range of distortion effect models.

arxiv情報

著者 Alistair Carson,Vesa Välimäki,Alec Wright,Stefan Bilbao
発行日 2025-01-30 16:44:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP パーマリンク