要約
個別の自己教師あり表現による直接音声対音声翻訳 (S2ST) は、驚くべき精度を達成しましたが、ソース音声の話者の音色を保存することはできません。
一方で、高品質の話者対並列データが不足しているため、翻訳中の学習スタイルの伝達に課題が生じています。
個別の自己教師あり音声表現とコーデック ユニットに基づいて、スタイル転送機能を備えた S2ST パイプラインを設計します。
スタイル伝達のために私たちが導入した音響言語モデルは、自己教師ありコンテキスト学習を活用し、話者並列データに依存せずにスタイル伝達能力を獲得し、それによってデータ不足を克服します。
広範なトレーニング データを使用することにより、私たちのモデルは、これまで見たことのないソース言語での言語間スタイルのゼロショット転送を実現します。
実験では、私たちのモデルが高い忠実度と話者の類似性を備えた翻訳音声を生成することが示されています。
音声サンプルは http://stylelm.github.io/ で入手できます。
要約(オリジナル)
Direct speech-to-speech translation (S2ST) with discrete self-supervised representations has achieved remarkable accuracy, but is unable to preserve the speaker timbre of the source speech. Meanwhile, the scarcity of high-quality speaker-parallel data poses a challenge for learning style transfer during translation. We design an S2ST pipeline with style-transfer capability on the basis of discrete self-supervised speech representations and codec units. The acoustic language model we introduce for style transfer leverages self-supervised in-context learning, acquiring style transfer ability without relying on any speaker-parallel data, thereby overcoming data scarcity. By using extensive training data, our model achieves zero-shot cross-lingual style transfer on previously unseen source languages. Experiments show that our model generates translated speeches with high fidelity and speaker similarity. Audio samples are available at http://stylelm.github.io/ .
arxiv情報
著者 | Yongqi Wang,Jionghao Bai,Rongjie Huang,Ruiqi Li,Zhiqing Hong,Zhou Zhao |
発行日 | 2024-07-19 12:11:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google