Hierarchical Generative Modeling of Melodic Vocal Contours in Hindustani Classical Music

要約

ヒンドゥスターニ音楽は、豊かな旋律パターンの演奏を示す、演奏主導の口承伝統です。
この論文では、歌手の声は伝統の中で音楽的に際立っているため、オーディオ録音から抽出された歌手の声のメロディーの生成モデリングに焦点を当てます。
ヒンドゥスターニ音楽におけるこれまでの生成研究は、メロディーを粗い離散記号としてモデル化しており、歌の豊かな表現力豊かなメロディーの複雑さを捉えることができませんでした。
したがって、階層オーディオモデリングの中間表現として、細かく量子化されたピッチ輪郭を使用することを提案します。
我々は、ピッチ輪郭に関する生成モデルとピッチ輪郭からオーディオ合成モデルまでで構成される、モジュール式の 2 レベルの階層である GaMaDHaNi を提案します。
リスニングテストと定性分析を通じて、非階層オーディオモデルと自己教師付き中間表現を使用する階層モデルに対するアプローチを比較します。
また、ピアソン相関係数を使用して、ピッチ輪郭入力を忠実に表現するオーディオ モデルの能力も評価します。
中間表現としてピッチ等高線を使用することで、2 つの潜在的なインタラクションのユースケース (1) プライムされた生成と (2) 粗いピッチを強調することで、人間と AI の共同作業環境でミュージシャンを聴き、応答するためのモデルがより適切に装備されている可能性があることを示します。
コンディショニング。

要約(オリジナル)

Hindustani music is a performance-driven oral tradition that exhibits the rendition of rich melodic patterns. In this paper, we focus on generative modeling of singers’ vocal melodies extracted from audio recordings, as the voice is musically prominent within the tradition. Prior generative work in Hindustani music models melodies as coarse discrete symbols which fails to capture the rich expressive melodic intricacies of singing. Thus, we propose to use a finely quantized pitch contour, as an intermediate representation for hierarchical audio modeling. We propose GaMaDHaNi, a modular two-level hierarchy, consisting of a generative model on pitch contours, and a pitch contour to audio synthesis model. We compare our approach to non-hierarchical audio models and hierarchical models that use a self-supervised intermediate representation, through a listening test and qualitative analysis. We also evaluate audio model’s ability to faithfully represent the pitch contour input using Pearson correlation coefficient. By using pitch contours as an intermediate representation, we show that our model may be better equipped to listen and respond to musicians in a human-AI collaborative setting by highlighting two potential interaction use cases (1) primed generation, and (2) coarse pitch conditioning.

arxiv情報

著者 Nithya Shikarpur,Krishna Maneesha Dendukuri,Yusong Wu,Antoine Caillon,Cheng-Zhi Anna Huang
発行日 2024-08-26 13:02:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク