要約
自動音声認識 (ASR) または Speech-to-text (STT) は、ここ数年で大きく進化しました。
パイプラインに基づく従来のアーキテクチャは、モデル トレーニング プロセスを簡素化および合理化する統合エンドツーエンド (E2E) アーキテクチャに置き換えられました。
さらに、弱教師あり学習などの新しい AI トレーニング手法により、モデルのトレーニングに高品質の音声データセットの必要性が減りました。
しかし、これらすべての進歩にもかかわらず、リアルタイム文字起こしに関する研究はほとんど行われていません。
リアルタイム シナリオでは、オーディオは事前に録音されていないため、ASR システムで処理するには入力オーディオを断片化する必要があります。
リアルタイム要件を達成するには、これらのフラグメントをできるだけ短くして待ち時間を短縮する必要があります。
ただし、発話を 2 つの別々の断片に分割すると不正確な文字起こしが生成されるため、音声を任意の時点で分割することはできません。
また、フラグメントが短いと、ASR モデルに提供されるコンテキストが少なくなります。
このため、結果として生じる転写の品質と遅延を最適化するために、さまざまな分割アルゴリズムを設計およびテストする必要があります。
このペーパーでは、3 つのオーディオ分割アルゴリズムを異なる ASR モデルで評価し、文字起こしの品質とエンドツーエンド遅延の両方に対する影響を判断します。
アルゴリズムは、固定間隔での断片化、音声アクティビティ検出 (VAD)、およびフィードバックを伴う断片化です。
結果は、オーディオの断片化がない場合の同じモデルのパフォーマンスと比較され、この分割の効果が判断されます。
結果は、VAD フラグメンテーションでは最高の品質と最長の遅延が提供されるのに対し、固定間隔でのフラグメンテーションでは最低の品質と最低の遅延が提供されることが示されています。
新しく提案されたフィードバック アルゴリズムは、WER の 2 ~ 4% の増加と、それぞれ VAD 分割に対する 1.5 ~ 2 秒の遅延の減少を交換します。
要約(オリジナル)
Automatic Speech Recognition (ASR) or Speech-to-text (STT) has greatly evolved in the last few years. Traditional architectures based on pipelines have been replaced by joint end-to-end (E2E) architectures that simplify and streamline the model training process. In addition, new AI training methods, such as weak-supervised learning have reduced the need for high-quality audio datasets for model training. However, despite all these advancements, little to no research has been done on real-time transcription. In real-time scenarios, the audio is not pre-recorded, and the input audio must be fragmented to be processed by the ASR systems. To achieve real-time requirements, these fragments must be as short as possible to reduce latency. However, audio cannot be split at any point as dividing an utterance into two separate fragments will generate an incorrect transcription. Also, shorter fragments provide less context for the ASR model. For this reason, it is necessary to design and test different splitting algorithms to optimize the quality and delay of the resulting transcription. In this paper, three audio splitting algorithms are evaluated with different ASR models to determine their impact on both the quality of the transcription and the end-to-end delay. The algorithms are fragmentation at fixed intervals, voice activity detection (VAD), and fragmentation with feedback. The results are compared to the performance of the same model, without audio fragmentation, to determine the effects of this division. The results show that VAD fragmentation provides the best quality with the highest delay, whereas fragmentation at fixed intervals provides the lowest quality and the lowest delay. The newly proposed feedback algorithm exchanges a 2-4% increase in WER for a reduction of 1.5-2s delay, respectively, to the VAD splitting.
arxiv情報
著者 | Carlos Arriaga,Alejandro Pozo,Javier Conde,Alvaro Alonso |
発行日 | 2024-09-09 14:41:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google