SpeechAlign: a Framework for Speech Translation Alignment Evaluation

要約

音声から音声への翻訳と音声からテキストへの翻訳は、現在活発な研究分野です。
これらの分野を前進させるという私たちの取り組みの一環として、音声モデルにおけるソースとターゲットの調整という未開発の分野を評価するために設計されたフレームワークである SpeechAlign を紹介します。
SpeechAlign フレームワークには 2 つのコア コンポーネントがあります。
まず、適切な評価データセットの欠如に対処するために、英語とドイツ語のテキスト翻訳のゴールド アライメント データセットに基づいて構築された Speech Gold Alignment データセットを導入します。
次に、音声モデル内の整合品質の評価を可能にする、音声整合エラー率 (SAER) と時間加重音声整合エラー率 (TW-SAER) という 2 つの新しい指標を導入します。
前者は各単語に同等の重要性を与えますが、後者は音声信号内の単語の長さに基づいて重みを割り当てます。
SpeechAlign を公開することで、モデル評価のためのアクセス可能な評価フレームワークを提供し、それをオープンソースの音声翻訳モデルのベンチマークに使用します。
そうすることで、私たちは音声から音声への翻訳および音声からテキストへの翻訳の分野で進行中の研究の進歩に貢献します。

要約(オリジナル)

Speech-to-Speech and Speech-to-Text translation are currently dynamic areas of research. In our commitment to advance these fields, we present SpeechAlign, a framework designed to evaluate the underexplored field of source-target alignment in speech models. The SpeechAlign framework has two core components. First, to tackle the absence of suitable evaluation datasets, we introduce the Speech Gold Alignment dataset, built upon a English-German text translation gold alignment dataset. Secondly, we introduce two novel metrics, Speech Alignment Error Rate (SAER) and Time-weighted Speech Alignment Error Rate (TW-SAER), which enable the evaluation of alignment quality within speech models. While the former gives equal importance to each word, the latter assigns weights based on the length of the words in the speech signal. By publishing SpeechAlign we provide an accessible evaluation framework for model assessment, and we employ it to benchmark open-source Speech Translation models. In doing so, we contribute to the ongoing research progress within the fields of Speech-to-Speech and Speech-to-Text translation.

arxiv情報

著者 Belen Alastruey,Aleix Sant,Gerard I. Gállego,David Dale,Marta R. Costa-jussà
発行日 2024-04-25 09:21:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク