Explainable Deep Learning Analysis for Raga Identification in Indian Art Music

要約

ラーガ識別のタスクは、音楽情報検索において非常に人気のある研究課題です。
このタスクを調査した研究はほとんどなく、信号処理、機械学習 (ML) 手法、さらに最近では深層学習 (DL) ベースの手法など、さまざまなアプローチが採用されています。
しかし、これらの研究のすべてにおいて重要な疑問は未解決のままです: これらの ML/DL メソッドは人間の専門家と同様の方法でラーガを学習および解釈するのでしょうか?
さらに、この研究における重大な障害は、これらの ML/DL ベースの手法を推進する豊富なラベル付きデータセットが十分に供給できないことです。
この論文では、細心の注意を払ってラベル付けされた 191 時間のヒンドゥスターニ古典音楽 (HCM) 録音で構成される新しいデータセットである「Prasarbharti Indian Music」バージョン 1 (PIM-v1) を紹介します。これは、HCM 録音のラベル付きデータセットとしては最大のものです。
私たちの知識の。
私たちのアプローチには、PIM-v1 データセットを使用した自動ラーガ識別 (ARI) のベンチマーク分類モデルを見つけるためのアブレーション研究の実施が含まれます。
12 個の Raga クラスのサブセットに対して、チャンクごとの f1 スコア 0.89 を達成しました。
続いて、モデルの説明可能性手法を使用して分類器の予測を評価し、それらが人間のラーガス理解と一致しているか、それとも任意のパターンによって駆動されているかを確認することを目的としています。
2 つの ExAI モデルによって与えられた説明と人間の専門家の注釈を比較することで、モデルの予測の正しさを検証します。
これに続いて、個々のテスト例の説明を分析して、モデルによって行われる正しい予測または誤った予測における説明によって強調表示される領域の役割を理解します。

要約(オリジナル)

The task of Raga Identification is a very popular research problem in Music Information Retrieval. Few studies that have explored this task employed various approaches, such as signal processing, Machine Learning (ML) methods, and more recently Deep Learning (DL) based methods. However, a key question remains unanswered in all of these works: do these ML/DL methods learn and interpret Ragas in a manner similar to human experts? Besides, a significant roadblock in this research is the unavailability of ample supply of rich, labeled datasets, which drives these ML/DL based methods. In this paper, we introduce ‘Prasarbharti Indian Music’ version-1 (PIM-v1), a novel dataset comprising of 191 hours of meticulously labeled Hindustani Classical Music (HCM) recordings, which is the largest labeled dataset for HCM recordings to the best of our knowledge. Our approach involves conducting ablation studies to find the benchmark classification model for Automatic Raga Identification (ARI) using PIM-v1 dataset. We achieve a chunk-wise f1-score of 0.89 for a subset of 12 Raga classes. Subsequently, we employ model explainability techniques to evaluate the classifier’s predictions, aiming to ascertain whether they align with human understanding of Ragas or are driven by arbitrary patterns. We validate the correctness of model’s predictions by comparing the explanations given by two ExAI models with human expert annotations. Following this, we analyze explanations for individual test examples to understand the role of regions highlighted by explanations in correct or incorrect predictions made by the model.

arxiv情報

著者 Parampreet Singh,Vipul Arora
発行日 2024-06-04 16:06:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.AS パーマリンク