DisfluencyFixer: A tool to enhance Language Learning through Speech To Speech Disfluency Correction

要約

会話の音声は多くの場合、音声計画からの逸脱で構成され、流暢な発話を生成し、下流の NLP タスクに影響を与えます。
流暢で一貫したスピーチを作成するには、これらの不一致を取り除くことが必要です。
このペーパーでは、自動音声認識 (ASR)、不流症補正 (DC)、およびテキスト読み上げ (TTS) モデルのパイプラインを使用して、英語とヒンディー語で音声間の流暢性の修正を実行するツールである DisfluencyFixer について説明します。
私たちが提案するシステムは、入力音声から流暢性を除去し、出力として流暢な音声をそのトランスクリプト、流暢性タイプ、ソース発話の流暢性合計数とともに返し、言語学習者が音声の流暢性を向上させるためのワンストップの目的地を提供します。
私たちはツールのパフォーマンスを主観的に評価し、ASR パフォーマンス、DC パフォーマンス、システムの使いやすさで 5 点満点中 4.26、4.29、4.42 のスコアを獲得しました。
私たちのツールには、次のリンクからオープンにアクセスできます。

要約(オリジナル)

Conversational speech often consists of deviations from the speech plan, producing disfluent utterances that affect downstream NLP tasks. Removing these disfluencies is necessary to create fluent and coherent speech. This paper presents DisfluencyFixer, a tool that performs speech-to-speech disfluency correction in English and Hindi using a pipeline of Automatic Speech Recognition (ASR), Disfluency Correction (DC) and Text-To-Speech (TTS) models. Our proposed system removes disfluencies from input speech and returns fluent speech as output along with its transcript, disfluency type and total disfluency count in source utterance, providing a one-stop destination for language learners to improve the fluency of their speech. We evaluate the performance of our tool subjectively and receive scores of 4.26, 4.29 and 4.42 out of 5 in ASR performance, DC performance and ease-of-use of the system. Our tool can be accessed openly at the following link.

arxiv情報

著者 Vineet Bhat,Preethi Jyothi,Pushpak Bhattacharyya
発行日 2023-05-26 14:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク