要約
インド古典音楽 (ICM) の重要な側面はラーガであり、作曲と即興演奏のメロディーの枠組みとして機能します。
Raga 認識は、音楽の推奨から膨大な音楽コレクションの整理に至るまで、多数の下流アプリケーションを支援できるため、ICM における重要な音楽情報検索タスクです。
この研究では、ラーガ認識に対する深層学習ベースのアプローチを提案します。
私たちのアプローチは、効率的な事前所有を採用し、長期短期記憶ベースのリカレント ニューラル ネットワーク (LSTM-RNN) を使用して音楽データの時間シーケンスを学習します。
元の音声からサンプリングされた小さなシーケンスでネットワークをトレーニングおよびテストし、最終的な推論は音声全体に対して実行されます。
私たちの方法は、Comp Music Carnatic データセットとその 10 個のラーガ サブセットの推論でそれぞれ 88.1% と 97% の精度を達成し、ラーガ認識タスクの最先端のものとなっています。
私たちのアプローチは、提示されたクエリシーケンスに密接に関連する特定の音楽データベースからメロディーパターンを取得するのに役立つシーケンスランキングも可能にします。
要約(オリジナル)
A vital aspect of Indian Classical Music (ICM) is Raga, which serves as a melodic framework for compositions and improvisations alike. Raga Recognition is an important music information retrieval task in ICM as it can aid numerous downstream applications ranging from music recommendations to organizing huge music collections. In this work, we propose a deep learning based approach to Raga recognition. Our approach employs efficient pre possessing and learns temporal sequences in music data using Long Short Term Memory based Recurrent Neural Networks (LSTM-RNN). We train and test the network on smaller sequences sampled from the original audio while the final inference is performed on the audio as a whole. Our method achieves an accuracy of 88.1% and 97 % during inference on the Comp Music Carnatic dataset and its 10 Raga subset respectively making it the state-of-the-art for the Raga recognition task. Our approach also enables sequence ranking which aids us in retrieving melodic patterns from a given music data base that are closely related to the presented query sequence.
arxiv情報
著者 | Sathwik Tejaswi Madhusudhan,Girish Chowdhary |
発行日 | 2024-02-15 18:11:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google