要約
音楽 AI モデルの表現を定量化し、人間の行動と一致させることは、MIR の分野における重要な課題です。
この論文では、AI 音楽モデルの表現と人間の音楽判断の間の直接的な連携を探索するためのプラットフォーム (DAIRHuM) を紹介します。
これは、ミュージシャンや実験家が音楽録音のデータセット内の類似点にラベルを付け、定量的なスコアと視覚的なプロットを使用して、事前トレーニングされたモデルとラベルの一致を検査できるように設計されています。
DAIRHuM は、NSynth 表現間の整合性と、Carnatic カルテット アンサンブルの 2 人のパーカッショニスト間のリズミカルなデュエットの分析に適用されます。これは、注釈付きデータが不足し、整合性の評価が重要なジャンルの例です。
この結果は、カルナティック音楽に特有のリズム認識と音楽類似性判断における重要な違いを強調しながら、リズミカルなハーモニーに関する人間の判断とモデルの一致に関する重要な発見を示しています。
この研究は、データ不足と文化的特異性に対処しながら、ユーザーがカルナティック音楽における人間と AI モデルの整合性を探索し、インド音楽における MIR 研究を進めることを可能にする最初の取り組みの 1 つです。
このプラットフォームの開発により、過小評価されているジャンルの音楽 AI ツールへのアクセスが向上します。
要約(オリジナル)
Quantifying and aligning music AI model representations with human behavior is an important challenge in the field of MIR. This paper presents a platform for exploring the Direct alignment between AI music model Representations and Human Musical judgments (DAIRHuM). It is designed to enable musicians and experimentalists to label similarities in a dataset of music recordings, and examine a pre-trained model’s alignment with their labels using quantitative scores and visual plots. DAIRHuM is applied to analyze alignment between NSynth representations, and a rhythmic duet between two percussionists in a Carnatic quartet ensemble, an example of a genre where annotated data is scarce and assessing alignment is non-trivial. The results demonstrate significant findings on model alignment with human judgments of rhythmic harmony, while highlighting key differences in rhythm perception and music similarity judgments specific to Carnatic music. This work is among the first efforts to enable users to explore human-AI model alignment in Carnatic music and advance MIR research in Indian music while dealing with data scarcity and cultural specificity. The development of this platform provides greater accessibility to music AI tools for under-represented genres.
arxiv情報
著者 | Prashanth Thattai Ravikumar |
発行日 | 2024-11-22 13:04:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google