A Deep Dive into the Disparity of Word Error Rates Across Thousands of NPTEL MOOC Videos

要約

自動音声認識 (ASR) システムは、話し言葉を書き言葉に書き写すように設計されており、音声アシスタントや文字起こしサービスなどのさまざまなアプリケーションで活用できます。
しかし、優れたベンチマーク結果をもたらす最先端の ASR システムは、音声特性のばらつきにより、特定の地域や人口統計の話者に対しては苦戦することが観察されています。
この研究では、インドの人口統計のさまざまな地域を代表する講師によって行われた英語による $\sim9.8$K の技術講義とそのトランスクリプトから構成される 8,740 時間の大規模な音声データセットのキュレーションについて説明します。
データセットは、非常に人気のある NPTEL MOOC プラットフォームから取得されています。
私たちは、厳選されたデータセットを使用して、インドの話者の多様な人口統計的特徴にわたる YouTube 自動キャプションと OpenAI Whisper モデルのパフォーマンスにおける既存の差異を測定します。
話者の性別、出身地域、年齢、発話速度などによる格差は存在するが、カーストによる格差は存在しない。
また、講義の分野間で統計的に有意な差異が観察されました。
これらの結果は、より包括的で堅牢な ASR システムと、その中での視差評価のためのより表現的なデータセットの必要性を示しています。

要約(オリジナル)

Automatic speech recognition (ASR) systems are designed to transcribe spoken language into written text and find utility in a variety of applications including voice assistants and transcription services. However, it has been observed that state-of-the-art ASR systems which deliver impressive benchmark results, struggle with speakers of certain regions or demographics due to variation in their speech properties. In this work, we describe the curation of a massive speech dataset of 8740 hours consisting of $\sim9.8$K technical lectures in the English language along with their transcripts delivered by instructors representing various parts of Indian demography. The dataset is sourced from the very popular NPTEL MOOC platform. We use the curated dataset to measure the existing disparity in YouTube Automatic Captions and OpenAI Whisper model performance across the diverse demographic traits of speakers in India. While there exists disparity due to gender, native region, age and speech rate of speakers, disparity based on caste is non-existent. We also observe statistically significant disparity across the disciplines of the lectures. These results indicate the need of more inclusive and robust ASR systems and more representational datasets for disparity evaluation in them.

arxiv情報

著者 Anand Kumar Rai,Siddharth D Jaiswal,Animesh Mukherjee
発行日 2023-07-20 05:03:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク