要約
自動吹き替え用に音声を翻訳するには、機械翻訳が等時性である必要があります。つまり、翻訳された音声は、音声の長さの観点からソースと一致している必要があります。
トランスフォーマーモデルにターゲット因子を導入して、ターゲット言語の音素シーケンスと合わせて持続時間を予測します。
また、ターゲット音素を生成する際にデコーダーがタイミング情報を追跡できるようにする補助カウンターも導入しました。
代わりに翻訳モデルがインターリーブされた音素シーケンスと持続時間を予測するようにトレーニングされた以前の研究と比較して、私たちのモデルが翻訳品質と等時性を向上させることを示します。
要約(オリジナル)
To translate speech for automatic dubbing, machine translation needs to be isochronous, i.e. translated speech needs to be aligned with the source in terms of speech durations. We introduce target factors in a transformer model to predict durations jointly with target language phoneme sequences. We also introduce auxiliary counters to help the decoder to keep track of the timing information while generating target phonemes. We show that our model improves translation quality and isochrony compared to previous work where the translation model is instead trained to predict interleaved sequences of phonemes and durations.
arxiv情報
著者 | Proyag Pal,Brian Thompson,Yogesh Virkar,Prashant Mathur,Alexandra Chronopoulou,Marcello Federico |
発行日 | 2023-05-22 16:36:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google