RescueSpeech: A German Corpus for Speech Recognition in Search and Rescue Domain

要約

音声認識の最近の進歩にも関わらず、騒がしく残響のある音響環境で会話や感情的な音声を正確に書き写すことは依然として困難です。
これは、リアルタイムの意思決定をサポートするために救助チームメンバー間の会話を文字に起こすことが重要である捜索救助 (SAR) 分野で特に課題を引き起こします。
SAR シナリオでは音声データが不足しており、それに伴う背景雑音が原因で、堅牢な音声認識システムを展開することが困難になります。
この問題に対処するために、私たちは RescueSpeech と呼ばれるドイツ語の音声データセットを作成し、公開しました。
このデータセットには、模擬救助訓練での実際の音声録音が含​​まれています。
さらに、競争力のあるトレーニング レシピと事前トレーニングされたモデルをリリースしました。
私たちの研究は、この困難なシナリオにおいて最先端の手法によって達成されるパフォーマンスが、依然として許容可能なレベルに達していないことを浮き彫りにしています。

要約(オリジナル)

Despite the recent advancements in speech recognition, there are still difficulties in accurately transcribing conversational and emotional speech in noisy and reverberant acoustic environments. This poses a particular challenge in the search and rescue (SAR) domain, where transcribing conversations among rescue team members is crucial to support real-time decision-making. The scarcity of speech data and associated background noise in SAR scenarios make it difficult to deploy robust speech recognition systems. To address this issue, we have created and made publicly available a German speech dataset called RescueSpeech. This dataset includes real speech recordings from simulated rescue exercises. Additionally, we have released competitive training recipes and pre-trained models. Our study highlights that the performance attained by state-of-the-art methods in this challenging scenario is still far from reaching an acceptable level.

arxiv情報

著者 Sangeet Sagar,Mirco Ravanelli,Bernd Kiefer,Ivana Kruijff Korbayova,Josef van Genabith
発行日 2023-09-12 15:11:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP パーマリンク