Aligning Speakers: Evaluating and Visualizing Text-based Diarization Using Efficient Multiple Sequence Alignment (Extended Version)

要約

この論文では、テキストベースの話者ダイアライゼーション (SD) に対する新しい評価アプローチを紹介し、テキスト内の文脈情報をまったく考慮しない従来の測定基準の制限に取り組みます。
テキストベースのダイアライゼーション誤り率とダイアライゼーション F1 という 2 つの新しい指標が提案されており、参照トランスクリプトと仮説トランスクリプトのトークンを整列させることによって発話レベルおよび単語レベルの評価を実行します。
私たちのメトリクスには、既存のメトリクスと比較してより多くの種類のエラーが含まれているため、SD でより包括的な分析を行うことができます。
トークンを整列させるために、動的プログラミングを使用して仮説に対する高次元の整列を処理しながら、参照内の複数の配列をサポートする複数配列整列アルゴリズムが導入されます。
私たちの取り組みは、アライメント アルゴリズム用の API を提供する align4d と、SD エラーを視覚化して評価するための TranscribeView という 2 つのツールにパッケージ化されており、これらは高品質のデータの作成に大きく役立ち、対話システムの進歩を促進します。

要約(オリジナル)

This paper presents a novel evaluation approach to text-based speaker diarization (SD), tackling the limitations of traditional metrics that do not account for any contextual information in text. Two new metrics are proposed, Text-based Diarization Error Rate and Diarization F1, which perform utterance- and word-level evaluations by aligning tokens in reference and hypothesis transcripts. Our metrics encompass more types of errors compared to existing ones, allowing us to make a more comprehensive analysis in SD. To align tokens, a multiple sequence alignment algorithm is introduced that supports multiple sequences in the reference while handling high-dimensional alignment to the hypothesis using dynamic programming. Our work is packaged into two tools, align4d providing an API for our alignment algorithm and TranscribeView for visualizing and evaluating SD errors, which can greatly aid in the creation of high-quality data, fostering the advancement of dialogue systems.

arxiv情報

著者 Chen Gong,Peilin Wu,Jinho D. Choi
発行日 2023-09-14 12:43:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク