ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition Challenge

要約

運転シナリオにおける音声処理と認識の研究を促進するために、私たちは ISCSLP 2022 で開催されたインテリジェント コックピット音声認識チャレンジ (ICSRC) の成功を基に、ICASSP 2024 車内マルチチャネル自動音声認識 (ICMC-ASR) チャレンジを開始します。

この課題では、新エネルギー車の車内で録音された 100 時間以上のマルチチャンネル音声データと、データ増強のための 40 時間のノイズを収集します。
自動音声認識 (ASR) と自動音声ダイアライゼーションおよび認識 (ASDR) を含む 2 つのトラックが設定され、それぞれ文字誤り率 (CER) と連結最小順列文字誤り率 (cpCER) を評価指標として使用します。
全体として、ICMC-ASR チャレンジには 98 の参加チームが集まり、両方のトラックで 53 の有効な結果が得られます。
最終的に、1 位チーム USTCiflytek は、ASR トラックで 13.16% の CER、ASDR トラックで 21.48% の cpCER を達成し、チャレンジのベースラインと比較して、それぞれ 13.08% と 51.4% の絶対的な改善を示しました。

要約(オリジナル)

To promote speech processing and recognition research in driving scenarios, we build on the success of the Intelligent Cockpit Speech Recognition Challenge (ICSRC) held at ISCSLP 2022 and launch the ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition (ICMC-ASR) Challenge. This challenge collects over 100 hours of multi-channel speech data recorded inside a new energy vehicle and 40 hours of noise for data augmentation. Two tracks, including automatic speech recognition (ASR) and automatic speech diarization and recognition (ASDR) are set up, using character error rate (CER) and concatenated minimum permutation character error rate (cpCER) as evaluation metrics, respectively. Overall, the ICMC-ASR Challenge attracts 98 participating teams and receives 53 valid results in both tracks. In the end, first-place team USTCiflytek achieves a CER of 13.16% in the ASR track and a cpCER of 21.48% in the ASDR track, showing an absolute improvement of 13.08% and 51.4% compared to our challenge baseline, respectively.

arxiv情報

著者 He Wang,Pengcheng Guo,Yue Li,Ao Zhang,Jiayao Sun,Lei Xie,Wei Chen,Pan Zhou,Hui Bu,Xin Xu,Binbin Zhang,Zhuo Chen,Jian Wu,Longbiao Wang,Eng Siong Chng,Sun Li
発行日 2024-01-18 11:18:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク