LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

要約

LyricWhiz は、ロックやメタルなどの難しいジャンルでも、さまざまな歌詞転写データセットで最先端のパフォーマンスを実現する、堅牢で多言語対応のゼロショット自動歌詞転写メソッドです。
私たちの斬新でトレーニング不要のアプローチは、弱く監視された堅牢な音声認識モデルである Whisper と、現在最もパフォーマンスの高いチャットベースの大規模言語モデルである GPT-4 を利用しています。
提案手法では、Whisper が音声を書き写す「耳」として機能し、GPT-4 が「頭脳」として機能し、コンテキストに応じた出力選択と修正のための強力なパフォーマンスを備えたアノテーターとして機能します。
私たちの実験では、LyricWhiz は英語の既存の方法と比較して単語エラー率を大幅に削減し、複数の言語にまたがって歌詞を効果的に書き写すことができることを示しています。
さらに、LyricWhiz を使用して、MTG-Jamendo に基づいて、CC-BY-NC-SA 著作権ライセンス付きの、初の公的に利用可能な大規模な多言語歌詞転写データセットを作成し、ノイズ レベルの推定と分析のための人による注釈付きサブセットを提供します。
評価。
私たちは、私たちが提案する方法とデータセットが、挑戦的かつ新たな課題である多言語歌詞転写の開発を前進させることを期待しています。

要約(オリジナル)

We introduce LyricWhiz, a robust, multilingual, and zero-shot automatic lyrics transcription method achieving state-of-the-art performance on various lyrics transcription datasets, even in challenging genres such as rock and metal. Our novel, training-free approach utilizes Whisper, a weakly supervised robust speech recognition model, and GPT-4, today’s most performant chat-based large language model. In the proposed method, Whisper functions as the ‘ear’ by transcribing the audio, while GPT-4 serves as the ‘brain,’ acting as an annotator with a strong performance for contextualized output selection and correction. Our experiments show that LyricWhiz significantly reduces Word Error Rate compared to existing methods in English and can effectively transcribe lyrics across multiple languages. Furthermore, we use LyricWhiz to create the first publicly available, large-scale, multilingual lyrics transcription dataset with a CC-BY-NC-SA copyright license, based on MTG-Jamendo, and offer a human-annotated subset for noise level estimation and evaluation. We anticipate that our proposed method and dataset will advance the development of multilingual lyrics transcription, a challenging and emerging task.

arxiv情報

著者 Le Zhuo,Ruibin Yuan,Jiahao Pan,Yinghao Ma,Yizhi LI,Ge Zhang,Si Liu,Roger Dannenberg,Jie Fu,Chenghua Lin,Emmanouil Benetos,Wenhu Chen,Wei Xue,Yike Guo
発行日 2023-06-29 17:01:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク