A Textless Metric for Speech-to-Speech Comparison

要約

この論文では、テキストのトランスクリプトに依存せずに音声発話を比較するための新しい簡単な方法を紹介します。
私たちの音声間の比較メトリクスは、HuBERT のような最先端の speech2unit エンコーダを利用して、音声発話を個別の音響単位に変換します。
次に、テキストベースの対応物に密接に対応する音声ベースのメトリクスを学習する、シンプルで簡単に複製可能なニューラル アーキテクチャを提案します。
このテキストのないメトリクスには、口頭言語、信頼できる ASR システムを持たない言語の音声対音声翻訳の評価、または ASR 転写の必要性を完全に回避するなど、多くの潜在的な用途があります。
この論文はまた、音声から音声への翻訳評価の場合、ASR-BLEU (音声仮説と参照の両方を自動的に書き起こし、トランスクリプト間の文レベルの BLEU を計算する) が、たとえ ASR システムが強力であっても、実際のテキスト BLEU の代用としては不十分であることも示しています。

要約(オリジナル)

In this paper, we introduce a new and simple method for comparing speech utterances without relying on text transcripts. Our speech-to-speech comparison metric utilizes state-of-the-art speech2unit encoders like HuBERT to convert speech utterances into discrete acoustic units. We then propose a simple and easily replicable neural architecture that learns a speech-based metric that closely corresponds to its text-based counterpart. This textless metric has numerous potential applications, including evaluating speech-to-speech translation for oral languages, languages without dependable ASR systems, or to avoid the need for ASR transcription altogether. This paper also shows that for speech-to-speech translation evaluation, ASR-BLEU (which consists in automatically transcribing both speech hypothesis and reference and compute sentence-level BLEU between transcripts) is a poor proxy to real text-BLEU even when ASR system is strong.

arxiv情報

著者 Laurent Besacier,Swen Ribeiro,Olivier Galibert,Ioan Calapodescu
発行日 2023-07-20 11:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク