要約
単語誤り率 (WER) は、自動音声認識 (ASR) の精度の一般的な尺度です。
トランスクリプトは通常、非意味論的な違いを考慮して特定の文字を置き換えることによって前処理されます。
この正規化の結果、句読点や大文字の使用の正確さに関する情報が失われます。
拡張レーベンシュタイン距離アルゴリズムを使用して、堅牢な WER と追加の正投影メトリクスを計算する、非破壊のトークンベースのアプローチを紹介します。
転記エラーは、既存の文字列の類似性と音声アルゴリズムによってさらに詳細に分類されます。
いくつかのデータセットの評価により、一般的な WER 計算と比較した場合のアプローチが実質的に同等であることが実証されています。
また、句読点エラー率などの派生ユースケースの分析例や、インタラクティブな使用と実装の視覚化のための Web アプリケーションも提供します。
コードはオープンソースで入手できます。
要約(オリジナル)
The Word Error Rate (WER) is the common measure of accuracy for Automatic Speech Recognition (ASR). Transcripts are usually pre-processed by substituting specific characters to account for non-semantic differences. As a result of this normalisation, information on the accuracy of punctuation or capitalisation is lost. We present a non-destructive, token-based approach using an extended Levenshtein distance algorithm to compute a robust WER and additional orthographic metrics. Transcription errors are also classified more granularly by existing string similarity and phonetic algorithms. An evaluation on several datasets demonstrates the practical equivalence of our approach compared to common WER computations. We also provide an exemplary analysis of derived use cases, such as a punctuation error rate, and a web application for interactive use and visualisation of our implementation. The code is available open-source.
arxiv情報
著者 | Korbinian Kuhn,Verena Kersken,Gottfried Zimmermann |
発行日 | 2024-08-28 08:14:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google