A Phoneme-Informed Neural Network Model for Note-Level Singing Transcription

要約

タイトル:音素情報を利用した音符レベル歌唱転写のニューラルネットワークモデル

要約:
– 音符レベルの自動楽曲転写は、音楽情報検索(MIR)の代表的なタスクの1つであり、様々な楽器の音楽を理解するために研究されてきました。
– しかし、高品質なラベル付きデータの不足のため、多くの楽器の転写はまだ困難な課題です。
– 特に、歌唱の場合は、ピッチ、音色、ダイナミクスの表現性により正確な音符を見つけることが困難です。
– 本研究では、歌唱の言語的特徴を活用して、歌唱声の音符の音節をより正確に検出する方法を提案しています。
– 提案されたモデルは、事前に学習された歌唱と話し言葉のデータで生成された音素のフレーム毎の尤度である音声認識学習済機能符合マップ(PPG)を入力として、オンセット検出ネットワークを使用している。
– 言語的特徴がオンセット検出にどのように影響するかを検証するために、異なる言語のデータセットを用いて評価結果を比較し、詳細な分析のためにオンセットタイプを分けています。
– 本手法は、歌唱転写の性能を大幅に向上させ、歌唱解析における言語的特徴の重要性を強調しています。

要約(オリジナル)

Note-level automatic music transcription is one of the most representative music information retrieval (MIR) tasks and has been studied for various instruments to understand music. However, due to the lack of high-quality labeled data, transcription of many instruments is still a challenging task. In particular, in the case of singing, it is difficult to find accurate notes due to its expressiveness in pitch, timbre, and dynamics. In this paper, we propose a method of finding note onsets of singing voice more accurately by leveraging the linguistic characteristics of singing, which are not seen in other instruments. The proposed model uses mel-scaled spectrogram and phonetic posteriorgram (PPG), a frame-wise likelihood of phoneme, as an input of the onset detection network while PPG is generated by the pre-trained network with singing and speech data. To verify how linguistic features affect onset detection, we compare the evaluation results through the dataset with different languages and divide onset types for detailed analysis. Our approach substantially improves the performance of singing transcription and therefore emphasizes the importance of linguistic features in singing analysis.

arxiv情報

著者 Sangeon Yong,Li Su,Juhan Nam
発行日 2023-04-12 15:36:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク