要約
従来の音声からテキストへの翻訳 (ST) システムは、単一話者の発話に基づいてトレーニングされており、音声に複数の話者による会話が含まれる現実のシナリオには一般化できない場合があります。
この論文では、Speaker-Turn Aware Conversational Speech Translation と呼ばれるエンドツーエンドのマルチタスク トレーニング モデルを使用して、シングル チャネル マルチ話者会話 ST に取り組みます。このモデルは、自動音声認識、音声翻訳、話者ターン検出を組み合わせたものです。
シリアル化されたラベル形式の特別なトークン。
私たちは、Fisher-CALLHOME コーパスで実験を実行します。このコーパスは、2 つのシングル スピーカー チャネルを 1 つのマルチ スピーカー チャネルにマージすることで適応され、マルチ スピーカーの回転とクロストークを伴う、より現実的で困難なシナリオを表します。
シングルおよびマルチスピーカー条件にわたる、また従来の ST システムに対する実験結果では、私たちのモデルがマルチスピーカー条件では基準システムより優れたパフォーマンスを示し、シングル スピーカー条件では同等のパフォーマンスを達成することが示されています。
データ処理とモデルトレーニング用のスクリプトをリリースします。
要約(オリジナル)
Conventional speech-to-text translation (ST) systems are trained on single-speaker utterances, and they may not generalize to real-life scenarios where the audio contains conversations by multiple speakers. In this paper, we tackle single-channel multi-speaker conversational ST with an end-to-end and multi-task training model, named Speaker-Turn Aware Conversational Speech Translation, that combines automatic speech recognition, speech translation and speaker turn detection using special tokens in a serialized labeling format. We run experiments on the Fisher-CALLHOME corpus, which we adapted by merging the two single-speaker channels into one multi-speaker channel, thus representing the more realistic and challenging scenario with multi-speaker turns and cross-talk. Experimental results across single- and multi-speaker conditions and against conventional ST systems, show that our model outperforms the reference systems on the multi-speaker condition, while attaining comparable performance on the single-speaker condition. We release scripts for data processing and model training.
arxiv情報
著者 | Juan Zuluaga-Gomez,Zhaocheng Huang,Xing Niu,Rohit Paturi,Sundararajan Srinivasan,Prashant Mathur,Brian Thompson,Marcello Federico |
発行日 | 2023-11-01 17:55:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google