要約
従来の音声からの会話インテリジェンスでは、カスケード・パイプラインが使用され、音声アクティビティ検出、ダイアライゼーション、トランスクリプション、そしてセマンティック・エンドポイントや名前付きエンティティ認識(NER)のようなタスクのための異なるNLPモデルによる後続処理が含まれる。本稿では、複数のタスクを処理するように設計された単一のトランスデューサベースのモデルであるTokenVerseを紹介する。これは、ASRモデルの学習中にタスク固有のトークンを参照テキストに統合することで、推論を効率化し、個別のNLPモデルを不要にすることで実現される。ASRに加えて、我々は3つの異なるタスクの実験を行った:話者の変更検出、エンドポイント検出、NER。公開データセットと非公開データセットを用いた実験により、提案手法がASRを相対WERで最大7.7%改善する一方、個々のタスク性能ではカスケードパイプラインアプローチを上回ることが示された。さらに、既存のTokenVerse内の新しいタスクへのタスク転送学習も示す。
要約(オリジナル)
In traditional conversational intelligence from speech, a cascaded pipeline is used, involving tasks such as voice activity detection, diarization, transcription, and subsequent processing with different NLP models for tasks like semantic endpointing and named entity recognition (NER). Our paper introduces TokenVerse, a single Transducer-based model designed to handle multiple tasks. This is achieved by integrating task-specific tokens into the reference text during ASR model training, streamlining the inference and eliminating the need for separate NLP models. In addition to ASR, we conduct experiments on 3 different tasks: speaker change detection, endpointing, and NER. Our experiments on a public and a private dataset show that the proposed method improves ASR by up to 7.7% in relative WER while outperforming the cascaded pipeline approach in individual task performance. Additionally, we present task transfer learning to a new task within an existing TokenVerse.
arxiv情報
著者 | Shashi Kumar,Srikanth Madikeri,Juan Zuluaga-Gomez,Iuliia Nigmatulina,Esaú Villatoro-Tello,Sergio Burdisso,Petr Motlicek,Karthik Pandia,Aravind Ganapathiraju |
発行日 | 2024-07-05 11:54:38+00:00 |
arxivサイト | arxiv_id(pdf) |