Self-Similarity-Based and Novelty-based loss for music structure analysis


音楽構造分析 (MSA) は、音楽トラックを構成する音楽セグメントを特定し、それらの類似性に基づいてラベルを付けることを目的としたタスクです。
このため、学習された特徴で取得された自己類似性行列 (SSM) に基づく損失 (SSM 損失で示される) と、学習されたカーネルを推定されたカーネルに適用して得られる新規性スコアに基づく損失を共同で最適化します。
また、自己注意による相対的な特徴学習が MSA のタスクに有益であることも示します。
最後に、私たちのアプローチのパフォーマンスを、標準 RWC-Pop および SALAMI のさまざまなサブセットで以前に提案されたアプローチと比較します。


Music Structure Analysis (MSA) is the task aiming at identifying musical segments that compose a music track and possibly label them based on their similarity. In this paper we propose a supervised approach for the task of music boundary detection. In our approach we simultaneously learn features and convolution kernels. For this we jointly optimize — a loss based on the Self-Similarity-Matrix (SSM) obtained with the learned features, denoted by SSM-loss, and — a loss based on the novelty score obtained applying the learned kernels to the estimated SSM, denoted by novelty-loss. We also demonstrate that relative feature learning, through self-attention, is beneficial for the task of MSA. Finally, we compare the performances of our approach to previously proposed approaches on the standard RWC-Pop, and various subsets of SALAMI.


著者 Geoffroy Peeters
発行日 2023-09-05 13:49:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク