要約
この論文では、標準の音声認識とは明らかに異なる領域である、歌うための音声認識における課題と進歩について取り上げます。
歌うことには、広範なピッチの変化、多様なボーカルスタイル、BGM の干渉など、独特の課題が伴います。
音素の認識、歌の中の言語の識別、キーワードの検出、完全な歌詞の書き起こしなどの重要な領域を調査します。
これらのタスクが注目を集め始めた頃に研究を行ったときの私自身の経験のいくつかについて説明しますが、ディープラーニングと大規模データセットの最近の開発がこの分野の進歩をどのように推進したかについても説明します。
私の目標は、音声認識を歌に応用する際の複雑さを明らかにし、現在の能力を評価し、将来の研究の方向性を概説することです。
要約(オリジナル)
This paper addresses the challenges and advancements in speech recognition for singing, a domain distinctly different from standard speech recognition. Singing encompasses unique challenges, including extensive pitch variations, diverse vocal styles, and background music interference. We explore key areas such as phoneme recognition, language identification in songs, keyword spotting, and full lyrics transcription. I will describe some of my own experiences when performing research on these tasks just as they were starting to gain traction, but will also show how recent developments in deep learning and large-scale datasets have propelled progress in this field. My goal is to illuminate the complexities of applying speech recognition to singing, evaluate current capabilities, and outline future research directions.
arxiv情報
| 著者 | Anna Kruspe | 
| 発行日 | 2024-03-14 11:37:02+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
