DISCO: A Large Scale Human Annotated Corpus for Disfluency Correction in Indo-European Languages

要約

非流暢性修正 (DC) は、話された発話からつなぎ言葉、繰り返し、修正などの流暢性のない要素を削除して、読みやすく解釈可能なテキストを作成するプロセスです。
DC は、下流の言語理解タスクによる後続の処理の前に、自動音声認識 (ASR) 出力に適用される重要な後処理ステップです。
大規模なオープンソース データセットが利用できないため、既存の DC 研究は主に英語に焦点を当ててきました。
多言語の流暢性を修正するという目標に向けて、私たちは、英語、ヒンディー語、ドイツ語、フランス語の 4 つの重要なインドヨーロッパ言語をカバーする、人間による注釈付きの高品質な DC コーパスを提供します。
当社は、4 つの言語すべてにわたる最先端の DC モデルの結果を広範に分析し、97.55 (英語)、94.29 (ヒンディー語)、95.89 (ドイツ語)、92.97 (フランス語) の F1 スコアを獲得しました。
下流タスクにおける DC の利点を実証するために、DC を最先端の機械翻訳 (MT) システムと組み合わせて使用​​すると、BLEU スコアが平均 5.65 ポイント向上することを示します。
注釈付きのデータセットとともに実験を実行するコードをここでリリースします。

要約(オリジナル)

Disfluency correction (DC) is the process of removing disfluent elements like fillers, repetitions and corrections from spoken utterances to create readable and interpretable text. DC is a vital post-processing step applied to Automatic Speech Recognition (ASR) outputs, before subsequent processing by downstream language understanding tasks. Existing DC research has primarily focused on English due to the unavailability of large-scale open-source datasets. Towards the goal of multilingual disfluency correction, we present a high-quality human-annotated DC corpus covering four important Indo-European languages: English, Hindi, German and French. We provide extensive analysis of results of state-of-the-art DC models across all four languages obtaining F1 scores of 97.55 (English), 94.29 (Hindi), 95.89 (German) and 92.97 (French). To demonstrate the benefits of DC on downstream tasks, we show that DC leads to 5.65 points increase in BLEU scores on average when used in conjunction with a state-of-the-art Machine Translation (MT) system. We release code to run our experiments along with our annotated dataset here.

arxiv情報

著者 Vineet Bhat,Preethi Jyothi,Pushpak Bhattacharyya
発行日 2023-10-25 16:32:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク