Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model

要約

多言語の自動歌詞転写 (ALT) は、多言語の自動音声認識と比較して、利用できるラベル付きデータが限られていることと、歌うことで導入される課題があるため、困難な作業です。
最近、いくつかの多言語歌唱データセットがリリースされましたが、これらのコレクションでは引き続き英語が大半を占めています。
多言語 ALT は、データの規模と注釈の品質のため、依然として研究が進んでいません。
この論文では、利用可能なデータセットを使用して多言語 ALT システムを作成することを目的としています。
英語 ALT に効果的であることが証明されているアーキテクチャからインスピレーションを得て、対象語彙セットを拡張することでこれらのテクニックを多言語シナリオに適応させます。
次に、多言語モデルのパフォーマンスを単言語モデルと比較して評価します。
さらに、言語情報をモデルに組み込むためのさまざまな条件付け方法を検討します。
言語ごとに分析を適用し、言語分類パフォーマンスと組み合わせます。
私たちの調査結果では、多言語モデルは、言語サブセットでトレーニングされた単言語モデルよりも一貫して優れたパフォーマンスを発揮することが明らかになりました。
さらに、言語情報を組み込むとパフォーマンスが大幅に向上することを示します。

要約(オリジナル)

Multilingual automatic lyrics transcription (ALT) is a challenging task due to the limited availability of labelled data and the challenges introduced by singing, compared to multilingual automatic speech recognition. Although some multilingual singing datasets have been released recently, English continues to dominate these collections. Multilingual ALT remains underexplored due to the scale of data and annotation quality. In this paper, we aim to create a multilingual ALT system with available datasets. Inspired by architectures that have been proven effective for English ALT, we adapt these techniques to the multilingual scenario by expanding the target vocabulary set. We then evaluate the performance of the multilingual model in comparison to its monolingual counterparts. Additionally, we explore various conditioning methods to incorporate language information into the model. We apply analysis by language and combine it with the language classification performance. Our findings reveal that the multilingual model performs consistently better than the monolingual models trained on the language subsets. Furthermore, we demonstrate that incorporating language information significantly enhances performance.

arxiv情報

著者 Jiawen Huang,Emmanouil Benetos
発行日 2024-06-25 15:02:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク