Seamless: Multilingual Expressive and Streaming Speech Translation

要約

現在の大規模な自動音声翻訳システムには、人間と人間の対話と比較して、機械を介したコミュニケーションをシームレスに感じさせる重要な機能が欠けています。
この取り組みでは、ストリーミング形式でエンドツーエンドの表現力豊かな多言語翻訳を可能にするモデル ファミリを導入します。
まず、大規模な多言語およびマルチモーダルな SeamlessM4T モデルの改良版、SeamlessM4T v2 に貢献します。
この新しいモデルは、更新された UnitY2 フレームワークを組み込んでおり、より低リソースの言語データでトレーニングされました。
SeamlessM4T v2 は、次の 2 つのモデルを開始するための基盤を提供します。
SeamlessExpressive により、ボーカル スタイルと韻律を維持した翻訳が可能になります。
表現力豊かな音声研究におけるこれまでの取り組みと比較して、私たちの研究は、声のスタイルを維持しながら、話速や休止などの韻律の未解明な側面に取り組んでいます。
SeamlessStreaming に関しては、私たちのモデルは効率的な単調マルチヘッド アテンション メカニズムを利用して、完全なソース発話を待たずに低遅延のターゲット翻訳を生成します。
SeamlessStreaming は、この種のものとしては初めての機能で、複数のソース言語とターゲット言語の音声から音声への同時翻訳/テキスト翻訳を可能にします。
私たちのモデルが安全かつ責任を持って使用できることを保証するために、私たちは、マルチモーダル機械翻訳、追加の毒性の検出と軽減のためのシステム、ジェンダーバイアスの体系的な評価、および聞こえない局所的な透かしメカニズムのための既知の最初のレッドチームの取り組みを実装しました。
ディープフェイクの影響を弱めるように設計されています。
その結果、私たちは SeamlessExpressive と SeamlessStreaming の主要コンポーネントを統合して、リアルタイムで表現力豊かな異言語コミュニケーションを可能にする初の公的に利用可能なシステムである Seamless を形成しました。
この研究への貢献は一般に公開されており、https://github.com/facebookresearch/simless_communication からアクセスできます。

要約(オリジナル)

Large-scale automatic speech translation systems today lack key features that help machine-mediated communication feel seamless when compared to human-to-human dialogue. In this work, we introduce a family of models that enable end-to-end expressive and multilingual translations in a streaming fashion. First, we contribute an improved version of the massively multilingual and multimodal SeamlessM4T model-SeamlessM4T v2. This newer model, incorporating an updated UnitY2 framework, was trained on more low-resource language data. SeamlessM4T v2 provides the foundation on which our next two models are initiated. SeamlessExpressive enables translation that preserves vocal styles and prosody. Compared to previous efforts in expressive speech research, our work addresses certain underexplored aspects of prosody, such as speech rate and pauses, while also preserving the style of one’s voice. As for SeamlessStreaming, our model leverages the Efficient Monotonic Multihead Attention mechanism to generate low-latency target translations without waiting for complete source utterances. As the first of its kind, SeamlessStreaming enables simultaneous speech-to-speech/text translation for multiple source and target languages. To ensure that our models can be used safely and responsibly, we implemented the first known red-teaming effort for multimodal machine translation, a system for the detection and mitigation of added toxicity, a systematic evaluation of gender bias, and an inaudible localized watermarking mechanism designed to dampen the impact of deepfakes. Consequently, we bring major components from SeamlessExpressive and SeamlessStreaming together to form Seamless, the first publicly available system that unlocks expressive cross-lingual communication in real-time. The contributions to this work are publicly released and accessible at https://github.com/facebookresearch/seamless_communication

arxiv情報

著者 Seamless Communication,Loïc Barrault,Yu-An Chung,Mariano Coria Meglioli,David Dale,Ning Dong,Mark Duppenthaler,Paul-Ambroise Duquenne,Brian Ellis,Hady Elsahar,Justin Haaheim,John Hoffman,Min-Jae Hwang,Hirofumi Inaguma,Christopher Klaiber,Ilia Kulikov,Pengwei Li,Daniel Licht,Jean Maillard,Ruslan Mavlyutov,Alice Rakotoarison,Kaushik Ram Sadagopan,Abinesh Ramakrishnan,Tuan Tran,Guillaume Wenzek,Yilin Yang,Ethan Ye,Ivan Evtimov,Pierre Fernandez,Cynthia Gao,Prangthip Hansanti,Elahe Kalbassi,Amanda Kallet,Artyom Kozhevnikov,Gabriel Mejia Gonzalez,Robin San Roman,Christophe Touret,Corinne Wong,Carleigh Wood,Bokai Yu,Pierre Andrews,Can Balioglu,Peng-Jen Chen,Marta R. Costa-jussà,Maha Elbayad,Hongyu Gong,Francisco Guzmán,Kevin Heffernan,Somya Jain,Justine Kao,Ann Lee,Xutai Ma,Alex Mourachko,Benjamin Peloquin,Juan Pino,Sravya Popuri,Christophe Ropers,Safiyyah Saleem,Holger Schwenk,Anna Sun,Paden Tomasello,Changhan Wang,Jeff Wang,Skyler Wang,Mary Williamson
発行日 2023-12-08 17:18:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク