Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models

要約

この論文では、選択的状態空間モデルを備えたディープ ニューラル ネットワークを使用して、光学ダイナミック レンジ コンプレッサーをモデル化する方法を紹介します。
提案されたアプローチは、Selective State Space ブロックを使用して入力オーディオをエンコードすることにより、リカレント レイヤーに基づく以前の方法を超えています。
機能ごとのリニア モジュレーションとゲート リニア ユニットを統合してネットワークを動的に調整し、外部パラメータに従って圧縮のアタック フェーズとリリース フェーズを調整する洗練された技術を特徴としています。
提案されたアーキテクチャは、ライブオーディオ処理に不可欠な低遅延のリアルタイムアプリケーションに最適です。
この方法は、異なる特性を持つアナログ光コンプレッサー TubeTech CL 1B および Teletronix LA-2A で検証されています。
評価は定量的な指標と主観的なリスニングテストを使用して実行され、提案された方法を他の最先端のモデルと比較します。
結果は、私たちのブラックボックスモデリング手法が他の手法よりも優れており、トレーニング中に目に見える設定と目に見えない設定の両方で圧縮プロセスの正確なエミュレーションを達成することを示しています。
さらに、この精度とデータセット内の制御パラメータのサンプリング密度との相関関係を示し、速いアタックと遅いリリースの設定がエミュレートするのが最も難しい設定であることを特定します。

要約(オリジナル)

This paper presents a method for modeling optical dynamic range compressors using deep neural networks with Selective State Space models. The proposed approach surpasses previous methods based on recurrent layers by employing a Selective State Space block to encode the input audio. It features a refined technique integrating Feature-wise Linear Modulation and Gated Linear Units to adjust the network dynamically, conditioning the compression’s attack and release phases according to external parameters. The proposed architecture is well-suited for low-latency and real-time applications, crucial in live audio processing. The method has been validated on the analog optical compressors TubeTech CL 1B and Teletronix LA-2A, which possess distinct characteristics. Evaluation is performed using quantitative metrics and subjective listening tests, comparing the proposed method with other state-of-the-art models. Results show that our black-box modeling methods outperform all others, achieving accurate emulation of the compression process for both seen and unseen settings during training. We further show a correlation between this accuracy and the sampling density of the control parameters in the dataset and identify settings with fast attack and slow release as the most challenging to emulate.

arxiv情報

著者 Riccardo Simionato
発行日 2024-08-22 17:03:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク