Multilingual Speech-to-Speech Translation into Multiple Target Languages

要約

Speech-to-Speech Translation (S2ST) により、異なる言語を話す人々の間での音声コミュニケーションが可能になります。
多言語 S2ST に関する研究はいくつかありますが、その焦点はソース側の多言語性、つまり複数のソース言語から 1 つのターゲット言語への翻訳です。
複数のターゲット言語をサポートする多言語 S2ST に関する最初の研究を紹介します。
Speech-to-Unit とボコーダーを備えたダイレクト S2ST の最近の進歩を活用して、これらの主要コンポーネントに多言語機能を備えています。
Speech-to-masked-unit (S2MU) は、S2U の多言語拡張であり、指定されたターゲット言語に属さないユニットにマスキングを適用して、言語の干渉を軽減します。
また、言語の埋め込みと言語識別の補助的な喪失を使用してトレーニングされた多言語ボコーダーも提案します。
ベンチマーク翻訳テストセットでは、英語から 16 ドルのターゲット言語への翻訳において、私たちが提案した多言語モデルは二言語モデルよりも優れたパフォーマンスを示しました。

要約(オリジナル)

Speech-to-speech translation (S2ST) enables spoken communication between people talking in different languages. Despite a few studies on multilingual S2ST, their focus is the multilinguality on the source side, i.e., the translation from multiple source languages to one target language. We present the first work on multilingual S2ST supporting multiple target languages. Leveraging recent advance in direct S2ST with speech-to-unit and vocoder, we equip these key components with multilingual capability. Speech-to-masked-unit (S2MU) is the multilingual extension of S2U, which applies masking to units which don’t belong to the given target language to reduce the language interference. We also propose multilingual vocoder which is trained with language embedding and the auxiliary loss of language identification. On benchmark translation testsets, our proposed multilingual model shows superior performance than bilingual models in the translation from English into $16$ target languages.

arxiv情報

著者 Hongyu Gong,Ning Dong,Sravya Popuri,Vedanuj Goswami,Ann Lee,Juan Pino
発行日 2023-07-17 17:12:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク