Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer

要約

個別の自己教師あり表現を使用した直接音声対音声翻訳 (S2ST) は、驚くべき精度を達成しましたが、翻訳中にソース音声の話者の音色を保持することはできません。
一方、高品質の話者並列データが不足しているため、ソース音声とターゲット音声の間で学習スタイルを伝達する際に課題が生じています。
我々は、自己教師ありモデルからの離散ユニットに基づく音響言語モデルとスタイル転送用のニューラル コーデックを備えた S2ST フレームワークを提案します。
音響言語モデルは、自己教師ありコンテキスト内学習を活用し、話者並列データに依存せずにスタイルを伝達する能力を獲得し、それによってデータ不足の問題を克服します。
広範なトレーニング データを使用することにより、私たちのモデルは、これまで見たことのないソース言語での言語間スタイルのゼロショット転送を実現します。
実験では、私たちのモデルが高い忠実度とスタイルの類似性を備えた翻訳された音声を生成することが示されています。
音声サンプルは http://stylelm.github.io/ で入手できます。

要約(オリジナル)

Direct speech-to-speech translation (S2ST) with discrete self-supervised representations has achieved remarkable accuracy, but is unable to preserve the speaker timbre of the source speech during translation. Meanwhile, the scarcity of high-quality speaker-parallel data poses a challenge for learning style transfer between source and target speech. We propose an S2ST framework with an acoustic language model based on discrete units from a self-supervised model and a neural codec for style transfer. The acoustic language model leverages self-supervised in-context learning, acquiring the ability for style transfer without relying on any speaker-parallel data, thereby overcoming the issue of data scarcity. By using extensive training data, our model achieves zero-shot cross-lingual style transfer on previously unseen source languages. Experiments show that our model generates translated speeches with high fidelity and style similarity. Audio samples are available at http://stylelm.github.io/ .

arxiv情報

著者 Yongqi Wang,Jionghao Bai,Rongjie Huang,Ruiqi Li,Zhiqing Hong,Zhou Zhao
発行日 2023-09-14 09:52:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク