要約
例えば、音声アシスタントに特定のアーティストの曲を再生するよう依頼する、特定の場所へのナビゲーションを開始する、患者の検査結果を記録する、といった下流のタスクでエラーを最小限に抑えるために、便利な会話エージェントは名前付きエンティティを正確に捕捉しなければなりません。しかし、「ウカチュクウ」(イボ語)、「ラキシア」(スワヒリ語)、「インガビレ」(ルワンダ語)などの名前付きエンティティが話されると、自動音声認識(ASR)モデルの性能が著しく低下し、下流のシステムにエラーが伝搬する。この問題を分布の変化としてモデル化し、多言語事前訓練、アフリカの名前のエンティティの表現を増やすインテリジェントなデータ増強戦略、複数のアフリカのアクセントで多言語ASRモデルを微調整することによって、このモデルの偏りを緩和できることを実証する。その結果、ファインチューニングされたモデルは、アフリカ名を持つエンティティを含むサンプルにおいて、ベースラインと比較して81.5%の相対WERの改善を示しました。
要約(オリジナル)
Useful conversational agents must accurately capture named entities to minimize error for downstream tasks, for example, asking a voice assistant to play a track from a certain artist, initiating navigation to a specific location, or documenting a laboratory result for a patient. However, where named entities such as “Ukachukwu“ (Igbo), “Lakicia“ (Swahili), or “Ingabire“ (Rwandan) are spoken, automatic speech recognition (ASR) models’ performance degrades significantly, propagating errors to downstream systems. We model this problem as a distribution shift and demonstrate that such model bias can be mitigated through multilingual pre-training, intelligent data augmentation strategies to increase the representation of African-named entities, and fine-tuning multilingual ASR models on multiple African accents. The resulting fine-tuned models show an 81.5\% relative WER improvement compared with the baseline on samples with African-named entities.
arxiv情報
著者 | Tobi Olatunji,Tejumade Afonja,Bonaventure F. P. Dossou,Atnafu Lambebo Tonja,Chris Chinenye Emezue,Amina Mardiyyah Rufai,Sahib Singh |
発行日 | 2023-06-02 15:35:42+00:00 |
arxivサイト | arxiv_id(pdf) |