要約
ウィスパー音声認識モデルのトークナイザーを慎重に調整すると、デコーダーのクロスアテンション スコアに動的タイム ワーピングを適用する際に、単語レベルのタイムスタンプの精度が大幅に向上することを実証します。
モデルを微調整して、より逐語的な音声転写を生成し、複数の話者や背景ノイズに対する堅牢性を高めるためにいくつかの手法を採用しています。
これらの調整により、逐語的音声転写、単語分割、およびフィラー イベントの時間指定検出のベンチマークで最先端のパフォーマンスが達成され、転写幻覚をさらに軽減できます。
コードは https://github.com/nyrahealth/CrisperWhisper から入手できます。
要約(オリジナル)
We demonstrate that carefully adjusting the tokenizer of the Whisper speech recognition model significantly improves the precision of word-level timestamps when applying dynamic time warping to the decoder’s cross-attention scores. We fine-tune the model to produce more verbatim speech transcriptions and employ several techniques to increase robustness against multiple speakers and background noise. These adjustments achieve state-of-the-art performance on benchmarks for verbatim speech transcription, word segmentation, and the timed detection of filler events, and can further mitigate transcription hallucinations. The code is available open https://github.com/nyrahealth/CrisperWhisper.
arxiv情報
著者 | Laurin Wagner,Bernhard Thallinger,Mario Zusag |
発行日 | 2024-08-29 14:52:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google