要約
MeetEval は、あらゆる種類の会議文字起こしシステムを評価するためのオープンソース ツールキットです。
一般的に使用される Word Error Rate (WER)、特に cpWER、ORC WER、MIMO WER を他の WER 定義に沿って計算するための統合インターフェイスを提供します。
時間的制約によって cpWER の計算を拡張し、時間的位置合わせが妥当である場合に単語のみが正しいものとして識別されるようにします。
これにより、仮説文字列と参照文字列とのマッチングの品質が向上し、実際の転写品質にさらに近似することになります。システムが提供する時間の注釈が不十分な場合は、ペナルティが課せられます。
単語レベルのタイミング情報は入手できないことが多いため、セグメントレベルのタイミング (例: 文) から正確な単語レベルのタイミングを近似する方法を提示し、その近似によって正確な単語レベルの注釈とのマッチングと同様の WER が得られることを示します。
同時に、時間制約により照合アルゴリズムの高速化がもたらされ、タイムスタンプの処理によって生じる追加のオーバーヘッドを上回ります。
要約(オリジナル)
MeetEval is an open-source toolkit to evaluate all kinds of meeting transcription systems. It provides a unified interface for the computation of commonly used Word Error Rates (WERs), specifically cpWER, ORC WER and MIMO WER along other WER definitions. We extend the cpWER computation by a temporal constraint to ensure that only words are identified as correct when the temporal alignment is plausible. This leads to a better quality of the matching of the hypothesis string to the reference string that more closely resembles the actual transcription quality, and a system is penalized if it provides poor time annotations. Since word-level timing information is often not available, we present a way to approximate exact word-level timings from segment-level timings (e.g., a sentence) and show that the approximation leads to a similar WER as a matching with exact word-level annotations. At the same time, the time constraint leads to a speedup of the matching algorithm, which outweighs the additional overhead caused by processing the time stamps.
arxiv情報
著者 | Thilo von Neumann,Christoph Boeddeker,Marc Delcroix,Reinhold Haeb-Umbach |
発行日 | 2023-07-21 07:22:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google