LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study

要約

書記素から音素への (G2P) 変換は、音声処理、特に音声合成などのアプリケーションにとって重要です。
G2P システムは、ポリフォン単語と文脈依存音素を含む言語の言語理解と文脈認識を備えていなければなりません。
大規模言語モデル (LLM) は最近、さまざまな言語タスクにおいて大きな可能性を示しており、その音声知識が G2P に活用できる可能性があることが示唆されています。
この論文では、G2P 変換における LLM のパフォーマンスを評価し、追加のトレーニングやラベル付けされたデータを使用せずに LLM 出力を強化するプロンプトおよび後処理方法を紹介します。
また、ペルシャ語の文レベルの音声上の課題に対する G2P のパフォーマンスを評価するために設計されたベンチマーク データセットも紹介します。
私たちの結果は、提案された方法を適用することで、ペルシア語のような過小評価されている言語であっても、LLM が従来の G2P ツールを上回るパフォーマンスを発揮できることを示しており、LLM 支援 G2P システム開発の可能性を強調しています。

要約(オリジナル)

Grapheme-to-phoneme (G2P) conversion is critical in speech processing, particularly for applications like speech synthesis. G2P systems must possess linguistic understanding and contextual awareness of languages with polyphone words and context-dependent phonemes. Large language models (LLMs) have recently demonstrated significant potential in various language tasks, suggesting that their phonetic knowledge could be leveraged for G2P. In this paper, we evaluate the performance of LLMs in G2P conversion and introduce prompting and post-processing methods that enhance LLM outputs without additional training or labeled data. We also present a benchmarking dataset designed to assess G2P performance on sentence-level phonetic challenges of the Persian language. Our results show that by applying the proposed methods, LLMs can outperform traditional G2P tools, even in an underrepresented language like Persian, highlighting the potential of developing LLM-aided G2P systems.

arxiv情報

著者 Mahta Fetrat Qharabagh,Zahra Dehghanian,Hamid R. Rabiee
発行日 2024-09-13 06:13:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク