要約
音楽ソースの分離は、楽器の混合物を構成トラックに分離するタスクです。
音楽ソース分離モデルは通常、オーディオデータのみを使用してトレーニングされますが、モデルの分離機能を改善するために追加情報を使用できます。
このホワイトペーパーでは、音楽ソースの分離を支援するために音楽スコアを使用する2つの方法を提案します。スコアがモデルの入力としてオーディオ混合物のマグニチュードスペクトログラムと連結されたスコアに情報が付随するモデルと、スコアのみを使用して分離マスクを計算するモデルです。
Synthsodデータセットの合成データに関するモデルをトレーニングし、実際の録音で構成されるURMPおよびAalto Anechoic Orchestraデータセットのメソッドを評価します。
スコアに基づいたモデルは、ベースラインアプローチと比較して分離結果を改善しますが、合成のみのモデルから合成のみのモデルは合成のみの一般化の明確な改善を示しています。
要約(オリジナル)
Music source separation is the task of separating a mixture of instruments into constituent tracks. Music source separation models are typically trained using only audio data, although additional information can be used to improve the model’s separation capability. In this paper, we propose two ways of using musical scores to aid music source separation: a score-informed model where the score is concatenated with the magnitude spectrogram of the audio mixture as the input of the model, and a model where we use only the score to calculate the separation mask. We train our models on synthetic data in the SynthSOD dataset and evaluate our methods on the URMP and Aalto anechoic orchestra datasets, comprised of real recordings. The score-informed model improves separation results compared to a baseline approach, but struggles to generalize from synthetic to real data, whereas the score-only model shows a clear improvement in synthetic-to-real generalization.
arxiv情報
著者 | Eetu Tunturi,David Diaz-Guerra,Archontis Politis,Tuomas Virtanen |
発行日 | 2025-03-10 14:08:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google