要約
現在、句読点復元モデルは、ほぼ完全に構造化され、スクリプト化されたコーパスに基づいて評価されています。
一方、現実世界の ASR システムと後処理パイプラインは、通常、重大な不規則性、吃音、完全な文法からの逸脱を伴う自発的な発話に適用されます。
この不一致に対処するために、非公式音声ソースから派生した句読点と大文字小文字の情報を含む句読点復元データセットである SponSpeech を導入します。
データセットの公開に加えて、より多くのデータを生成するために使用できるフィルタリング パイプラインにも貢献します。
当社のフィルタリング パイプラインは、音声音声と文字起こしテキストの両方の品質を検査します。
また、音声情報を活用して文法的に曖昧な句読点を予測するモデルの能力を評価することを目的とした、「挑戦的な」テスト セットを慎重に構築しました。
SponSpeech は、データセット構築とモデル実行のためのすべてのコードとともに https://github.com/GitHubAccountAnonymous/PR で入手できます。
要約(オリジナル)
Presently, punctuation restoration models are evaluated almost solely on well-structured, scripted corpora. On the other hand, real-world ASR systems and post-processing pipelines typically apply towards spontaneous speech with significant irregularities, stutters, and deviations from perfect grammar. To address this discrepancy, we introduce SponSpeech, a punctuation restoration dataset derived from informal speech sources, which includes punctuation and casing information. In addition to publicly releasing the dataset, we contribute a filtering pipeline that can be used to generate more data. Our filtering pipeline examines the quality of both speech audio and transcription text. We also carefully construct a “challenging’ test set, aimed at evaluating models’ ability to leverage audio information to predict otherwise grammatically ambiguous punctuation. SponSpeech is available at https://github.com/GitHubAccountAnonymous/PR, along with all code for dataset building and model runs.
arxiv情報
著者 | Xing Yi Liu,Homayoon Beigi |
発行日 | 2024-09-17 14:43:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google