Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P) Transduction

要約

Text-to-Text Transfer Transformer (T5) は、最近、Grapheme-to-Phoneme (G2P) 変換用に検討されています。
フォローアップとして、ByT5 と呼ばれる T5 に基づくトークナイザーのないバイトレベル モデルは、最近、各入力文字を対応する UTF-8 エンコーディングで表すことにより、ワードレベルの G2P 変換で有望な結果をもたらしました。
文レベルまたは段落レベルの G2P は、異音異義語や単語間の音の接続に適しているため、現実世界のアプリケーションでの使いやすさを向上させることができると一般に理解されていますが、これらのシナリオで ByT5 を使用するのは簡単ではないことがわかりました。
ByT5 は文字レベルで動作するため、より長いデコード ステップが必要となり、自動回帰生成モデルでよく見られる露出バイアスによりパフォーマンスが低下します。
この論文では、私たちが提案する損失ベースのサンプリング方法を使用してそのような露出バイアスを軽減することで、文レベルおよび段落レベルの G2P のパフォーマンスを向上できることを示します。

要約(オリジナル)

Text-to-Text Transfer Transformer (T5) has recently been considered for the Grapheme-to-Phoneme (G2P) transduction. As a follow-up, a tokenizer-free byte-level model based on T5 referred to as ByT5, recently gave promising results on word-level G2P conversion by representing each input character with its corresponding UTF-8 encoding. Although it is generally understood that sentence-level or paragraph-level G2P can improve usability in real-world applications as it is better suited to perform on heteronyms and linking sounds between words, we find that using ByT5 for these scenarios is nontrivial. Since ByT5 operates on the character level, it requires longer decoding steps, which deteriorates the performance due to the exposure bias commonly observed in auto-regressive generation models. This paper shows that the performance of sentence-level and paragraph-level G2P can be improved by mitigating such exposure bias using our proposed loss-based sampling method.

arxiv情報

著者 Eunseop Yoon,Hee Suk Yoon,Dhananjaya Gowda,SooHwan Eom,Daehyeok Kim,John Harvill,Heting Gao,Mark Hasegawa-Johnson,Chanwoo Kim,Chang D. Yoo
発行日 2023-08-16 15:49:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク