Perceptual Musical Features for Interpretable Audio Tagging

要約

音楽ストリーミング プラットフォームの時代では、音楽オーディオに自動的にタグを付けるタスクが大きな注目を集めており、研究者は標準データセットのパフォーマンス メトリクスを強化することを目的とした方法を考案するようになりました。
最近のアプローチのほとんどはディープ ニューラル ネットワークに依存しています。ディープ ニューラル ネットワークは、その優れたパフォーマンスにもかかわらず不透明なため、特定の入力に対する出力を解明することが困難になっています。
解釈可能性の問題は、医学などの他の分野では重要視されてきましたが、音楽関連のタスクでは注目されていませんでした。
この研究では、音楽の自動タグ付けの文脈における解釈可能性の関連性を調査しました。
私たちは 3 つの異なる情報抽出技術を組み込んだワークフローを構築しました。a) 記号知識の活用、b) 補助ディープ ニューラル ネットワークの利用、c) 信号処理を利用してオーディオ ファイルから知覚的特徴を抽出します。
これらの機能はその後、タグ予測用の解釈可能な機械学習モデルをトレーニングするために使用されました。
私たちは、MTG-Jamendo データセットと GTZAN データセットという 2 つのデータセットで実験を実施しました。
私たちの手法は両方のタスクにおいてベースライン モデルのパフォーマンスを上回り、場合によっては現在の最先端モデルとの競争力を実証しました。
パフォーマンスの低下が解釈可能性の価値を上回るユースケースがあると結論付けています。

要約(オリジナル)

In the age of music streaming platforms, the task of automatically tagging music audio has garnered significant attention, driving researchers to devise methods aimed at enhancing performance metrics on standard datasets. Most recent approaches rely on deep neural networks, which, despite their impressive performance, possess opacity, making it challenging to elucidate their output for a given input. While the issue of interpretability has been emphasized in other fields like medicine, it has not received attention in music-related tasks. In this study, we explored the relevance of interpretability in the context of automatic music tagging. We constructed a workflow that incorporates three different information extraction techniques: a) leveraging symbolic knowledge, b) utilizing auxiliary deep neural networks, and c) employing signal processing to extract perceptual features from audio files. These features were subsequently used to train an interpretable machine-learning model for tag prediction. We conducted experiments on two datasets, namely the MTG-Jamendo dataset and the GTZAN dataset. Our method surpassed the performance of baseline models in both tasks and, in certain instances, demonstrated competitiveness with the current state-of-the-art. We conclude that there are use cases where the deterioration in performance is outweighed by the value of interpretability.

arxiv情報

著者 Vassilis Lyberatos,Spyridon Kantarelis,Edmund Dervakos,Giorgos Stamou
発行日 2024-02-23 13:41:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク