The GUA-Speech System Description for CNVSRC Challenge 2023

要約

この研究では、2023 年の中国語連続視覚音声認識チャレンジ (CNVSRC) のタスク 1 シングル話者視覚音声認識 (VSR) 固定トラックのシステムについて説明します。具体的には、中間コネクショニスト時間分類 (Inter CTC) 残差モジュールを使用して条件付きアルゴリズムを緩和します。
私たちのモデルにおける CTC の独立性の仮定。
次に、バイトランス デコーダを使用して、モデルが過去と将来の両方のコンテキスト情報をキャプチャできるようにします。
さらに、モデルの認識精度を向上させるために、モデリング単位として漢字を使用します。
最後に、推論段階での浅い融合にリカレント ニューラル ネットワーク言語モデル (RNNLM) を使用します。
実験の結果、私たちのシステムは評価セットで 38.09% の文字エラー率 (CER) を達成し、公式のベースラインを上回る 21.63% の相対 CER 削減に達し、チャレンジで 2 位を獲得したことが示されています。

要約(オリジナル)

This study describes our system for Task 1 Single-speaker Visual Speech Recognition (VSR) fixed track in the Chinese Continuous Visual Speech Recognition Challenge (CNVSRC) 2023. Specifically, we use intermediate connectionist temporal classification (Inter CTC) residual modules to relax the conditional independence assumption of CTC in our model. Then we use a bi-transformer decoder to enable the model to capture both past and future contextual information. In addition, we use Chinese characters as the modeling units to improve the recognition accuracy of our model. Finally, we use a recurrent neural network language model (RNNLM) for shallow fusion in the inference stage. Experiments show that our system achieves a character error rate (CER) of 38.09% on the Eval set which reaches a relative CER reduction of 21.63% over the official baseline, and obtains a second place in the challenge.

arxiv情報

著者 Shengqiang Li,Chao Lei,Baozhong Ma,Binbin Zhang,Fuping Pan
発行日 2023-12-12 13:35:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク