Speech is More Than Words: Do Speech-to-Text Translation Systems Leverage Prosody?

要約

強勢、イントネーション、リズムなどの特徴を含む、話し言葉の韻律は、基礎となる意味論に大きな影響を与える可能性があり、その結果、テキストの翻訳にも影響を与える可能性があります。
それにもかかわらず、音声からテキストへの翻訳 (S2TT) システムのコンテキスト内で韻律が研究されることはほとんどありません。
特に、エンドツーエンド (E2E) システムは、翻訳を決定する際に音声信号に直接アクセスできるため、韻律を意識した翻訳に適していると提案されていますが、これが実際に成功するかどうかについてはまだ理解が進んでいません。
限定。
主な課題は、翻訳における韻律認識の評価の難しさです。
この課題に対処するために、広範囲の韻律現象を捉えることを目的とした評価方法論と焦点を絞ったベンチマーク (ContraProST と呼ばれる) を導入します。
私たちの方法論では、大規模な言語モデルと制御可能な音声合成 (TTS) を使用して、対照的な例を生成します。
英語の音声をドイツ語、スペイン語、日本語に翻訳する実験を通じて、(a) S2TT モデルは韻律の内部表現を備えているが、韻律信号は翻訳に影響を与えるほど十分に強くないことが多い、(b) E2E システムはカスケードよりも優れていることがわかりました。
(c) 特定のカスケード システムも翻訳の韻律情報を捕捉しますが、その程度は転写の表面形式の詳細に依存します。

要約(オリジナル)

The prosody of a spoken utterance, including features like stress, intonation and rhythm, can significantly affect the underlying semantics, and as a consequence can also affect its textual translation. Nevertheless, prosody is rarely studied within the context of speech-to-text translation (S2TT) systems. In particular, end-to-end (E2E) systems have been proposed as well-suited for prosody-aware translation because they have direct access to the speech signal when making translation decisions, but the understanding of whether this is successful in practice is still limited. A main challenge is the difficulty of evaluating prosody awareness in translation. To address this challenge, we introduce an evaluation methodology and a focused benchmark (named ContraProST) aimed at capturing a wide range of prosodic phenomena. Our methodology uses large language models and controllable text-to-speech (TTS) to generate contrastive examples. Through experiments in translating English speech into German, Spanish, and Japanese, we find that (a) S2TT models possess some internal representation of prosody, but the prosody signal is often not strong enough to affect the translations, (b) E2E systems outperform cascades of speech recognition and text translation systems, confirming their theoretical advantage in this regard, and (c) certain cascaded systems also capture prosodic information in the translation, but only to a lesser extent that depends on the particulars of the transcript’s surface form.

arxiv情報

著者 Ioannis Tsiamas,Matthias Sperber,Andrew Finch,Sarthak Garg
発行日 2024-10-31 15:20:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク