Streaming Joint Speech Recognition and Disfluency Detection

要約

失語症検出は、主に音声認識の後処理として、パイプラインアプローチで解決されてきました。本研究では、音声認識と失語症検出を共同で解決し、ストリーミングで動作するTransformerベースのエンコーダ・デコーダモデルを提案する。パイプラインアプローチと比較して、ジョイントモデルは、ディスフルーエンシー検出を認識エラーに頑健にする音響情報を活用し、非言語的な手がかりを提供することができる。さらに、ジョイントモデルは、低レイテンシーで軽量な推論をもたらす。我々は、ストリーミングの失語症検出のための2つのジョイントモデル(トランスクリプトエンリッチモデルとマルチタスクモデル)を調査した。トランスクリプトエンリッチモデルは、流暢でない部分の始点と終点を示す特別なタグを持つテキストで学習させることができる。しかし、このモデルは、流暢でない部分のタグを追加することで生じる遅延や標準言語モデルの適応に問題がある。このような問題を解決するために、Transformerデコーダの出力層を音声認識用とディスフルーエント検出用の2層にしたマルチタスクモデルを提案する。このモデルは、現在認識されているトークンに条件付けされ、トークン依存のメカニズムが追加されたモデルである。提案した共同モデルは、Switchboardと自発的な日本語のコーパスの両方において、BERTベースのパイプラインアプローチを精度と待ち時間の両方で上回ったことを示している。

要約(オリジナル)

Disfluency detection has mainly been solved in a pipeline approach, as post-processing of speech recognition. In this study, we propose Transformer-based encoder-decoder models that jointly solve speech recognition and disfluency detection, which work in a streaming manner. Compared to pipeline approaches, the joint models can leverage acoustic information that makes disfluency detection robust to recognition errors and provide non-verbal clues. Moreover, joint modeling results in low-latency and lightweight inference. We investigate two joint model variants for streaming disfluency detection: a transcript-enriched model and a multi-task model. The transcript-enriched model is trained on text with special tags indicating the starting and ending points of the disfluent part. However, it has problems with latency and standard language model adaptation, which arise from the additional disfluency tags. We propose a multi-task model to solve such problems, which has two output layers at the Transformer decoder; one for speech recognition and the other for disfluency detection. It is modeled to be conditioned on the currently recognized token with an additional token-dependency mechanism. We show that the proposed joint models outperformed a BERT-based pipeline approach in both accuracy and latency, on both the Switchboard and the corpus of spontaneous Japanese.

arxiv情報

著者 Hayato Futami,Emiru Tsunoo,Kentaro Shibata,Yosuke Kashiwagi,Takao Okuda,Siddhant Arora,Shinji Watanabe
発行日 2023-05-11 07:55:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク