Modelling black-box audio effects with time-varying feature modulation



– オーディオエフェクトのブラックボックスモデリングにおいて、既存のディープラーニングアプローチは、比較的短い時間スケールで振る舞う非線形エフェクト、例えばギターアンプや歪みに焦点を当てたものが多い。
– 既存の再帰型や畳み込み型のアーキテクチャーは、理論的には長い時間スケールでの振る舞いも捉えられるが、既存のアーキテクチャーの幅や深さ、拡大率を単純に調整するだけでは、ファズやダイナミックレンジコンプレッションなどのオーディオエフェクトモデリングには十分な性能が得られないことが示された。
– そのため、既存の時系列畳み込みベースに時間変動する特徴ごとの線形変調を統合することを提案し、中間アクティベーションの学習可能な適応を可能にする手法を提案。
– 时间と周波数ドメインのメトリックにおいて、ファズやコンプレッサーの一連の実装において、長距離依存をより正確に捉えることができることを示し、再現性を容易にするためにサウンド例、ソースコード、事前学習モデルを提供する。


Deep learning approaches for black-box modelling of audio effects have shown promise, however, the majority of existing work focuses on nonlinear effects with behaviour on relatively short time-scales, such as guitar amplifiers and distortion. While recurrent and convolutional architectures can theoretically be extended to capture behaviour at longer time scales, we show that simply scaling the width, depth, or dilation factor of existing architectures does not result in satisfactory performance when modelling audio effects such as fuzz and dynamic range compression. To address this, we propose the integration of time-varying feature-wise linear modulation into existing temporal convolutional backbones, an approach that enables learnable adaptation of the intermediate activations. We demonstrate that our approach more accurately captures long-range dependencies for a range of fuzz and compressor implementations across both time and frequency domain metrics. We provide sound examples, source code, and pretrained models to faciliate reproducibility.


著者 Marco Comunità,Christian J. Steinmetz,Huy Phan,Joshua D. Reiss
発行日 2023-05-09 19:42:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク