Automatic Equalization for Individual Instrument Tracks Using Convolutional Neural Networks

要約

個々の楽器トラックの自動イコライゼーションのための新しいアプローチを提案します。
私たちの方法は、対応する理想的なスペクトルをターゲットとして選択するために、ソース録音内に存在する楽器を識別することから始まります。
次に、録音とターゲットの間のスペクトルの差が計算され、それに応じてイコライザー マッチング モデルを使用してパラメトリック イコライザーの設定が予測されます。
この目的を達成するために、微分可能なパラメトリック イコライザー マッチング ニューラル ネットワークを基盤として構築し、以前に確立された最先端技術と比較した改善を実証します。
これまでのアプローチとは異なり、私たちのシステムでは、マッチング モデルのトレーニング中に現実世界の音声データを自然に活用し、推論時の条件を反映する自動化された方法で、適切に生成されたトレーニング ターゲットを効果的に生成する方法を示します。
その結果、このような例でマッチング モデルを微調整すると、現実世界のシナリオにおけるパラメトリック イコライザー マッチングのパフォーマンスが大幅に向上し、自己教師あり学習戦略としてランダム パラメーター サンプリング手法のみに依存する方法と比較して、平均絶対誤差が 24% 減少することを示します。

私たちはリスニングテストを実行し、私たちが提案する自動イコライゼーションソリューションが一般的な種類の楽器の録音の音質特性を主観的に向上させることを実証しました。

要約(オリジナル)

We propose a novel approach for the automatic equalization of individual musical instrument tracks. Our method begins by identifying the instrument present within a source recording in order to choose its corresponding ideal spectrum as a target. Next, the spectral difference between the recording and the target is calculated, and accordingly, an equalizer matching model is used to predict settings for a parametric equalizer. To this end, we build upon a differentiable parametric equalizer matching neural network, demonstrating improvements relative to previously established state-of-the-art. Unlike past approaches, we show how our system naturally allows real-world audio data to be leveraged during the training of our matching model, effectively generating suitably produced training targets in an automated manner mirroring conditions at inference time. Consequently, we illustrate how fine-tuning our matching model on such examples considerably improves parametric equalizer matching performance in real-world scenarios, decreasing mean absolute error by 24% relative to methods relying solely on random parameter sampling techniques as a self-supervised learning strategy. We perform listening tests, and demonstrate that our proposed automatic equalization solution subjectively enhances the tonal characteristics for recordings of common instrument types.

arxiv情報

著者 Florian Mockenhaupt,Joscha Simon Rieber,Shahan Nercessian
発行日 2024-07-23 17:55:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク