Towards cross-language prosody transfer for dialog

要約

現在の音声認識翻訳システムは、対話目的での使用を適切にサポートしていません。
特に、韻律の伝達が不適切な場合、話者の意図やスタンスのニュアンスが失われる可能性があります。
これを克服するには何が必要かを検討していきます。
まず、バイリンガル話者が以前の会話の発話を他言語で再現するデータ収集プロトコルを開発し、これを使用して、これまでに 1871 の一致する発話ペアで構成される英語-スペイン語コーパスを収集しました。
次に、広範な韻律特徴にわたるユークリッド距離に基づいた単純な韻律の非類似性メトリックを開発しました。
次に、これらを使用して、言語間の韻律の違いを調査し、3 つの単純なベースライン モデルの有用性を測定し、より強力なモデリングが必要な現象を特定しました。
私たちの発見は、言語を越えた韻律と効果的な韻律変換が可能な音声対音声翻訳システムの設計に関する将来の研究に役立つはずです。

要約(オリジナル)

Speech-to-speech translation systems today do not adequately support use for dialog purposes. In particular, nuances of speaker intent and stance can be lost due to improper prosody transfer. We present an exploration of what needs to be done to overcome this. First, we developed a data collection protocol in which bilingual speakers re-enact utterances from an earlier conversation in their other language, and used this to collect an English-Spanish corpus, so far comprising 1871 matched utterance pairs. Second, we developed a simple prosodic dissimilarity metric based on Euclidean distance over a broad set of prosodic features. We then used these to investigate cross-language prosodic differences, measure the likely utility of three simple baseline models, and identify phenomena which will require more powerful modeling. Our findings should inform future research on cross-language prosody and the design of speech-to-speech translation systems capable of effective prosody transfer.

arxiv情報

著者 Jonathan E. Avila,Nigel G. Ward
発行日 2023-07-09 08:32:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク