Building a Non-native Speech Corpus Featuring Chinese-English Bilingual Children: Compilation and Rationale

要約

タイトル:
・中国語英語バイリンガルの児童の非ネイティブスピーチコーパスの作成とその理念

要約:
・5歳〜6歳の50人の中国語英語バイリンガルの児童が英語による物語の理解テストを行った音声コーパスを作成し、そのトランスクリプト、評価されたスコア、文法的および発音エラーの注釈を提示。
・参照目的で、児童は中国語(L1)のパラレルMAINテストも完了した。
・革新的なリモート収集方法でオーディオとビデオの両方を記録することで、低い理解度の問題を緩和し、子供たちが英語で話す物語をトランスクリプトするプロセスをより効果的にした。
・このコーパスは第二言語教育の有用な資源を提供し、自動音声認識(ASR)の全体的なパフォーマンスを向上させる可能性がある。

要約(オリジナル)

This paper introduces a non-native speech corpus consisting of narratives from fifty 5- to 6-year-old Chinese-English children. Transcripts totaling 6.5 hours of children taking a narrative comprehension test in English (L2) are presented, along with human-rated scores and annotations of grammatical and pronunciation errors. The children also completed the parallel MAIN tests in Chinese (L1) for reference purposes. For all tests we recorded audio and video with our innovative self-developed remote collection methods. The video recordings serve to mitigate the challenge of low intelligibility in L2 narratives produced by young children during the transcription process. This corpus offers valuable resources for second language teaching and has the potential to enhance the overall performance of automatic speech recognition (ASR).

arxiv情報

著者 Hiuchung Hung,Andreas Maier,Thorsten Piske
発行日 2023-04-30 10:41:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク