要約
個人が任意の 2 つの言語間で音声を翻訳できるツールである Babel Fish を作成するには何が必要ですか?
テキストベースのモデルにおける最近の進歩により、機械翻訳の対象範囲は 200 言語を超えていますが、統合音声対音声翻訳モデルはまだ同様の進歩を遂げていません。
より具体的に言うと、従来の音声対音声翻訳システムは、段階的に翻訳を実行するカスケード システムに依存しており、高性能の統合システムは手の届かないところにあります。
これらのギャップに対処するために、音声から音声への翻訳、音声からテキストへの翻訳、テキストから音声への翻訳、テキストからテキストへの翻訳、および最大 100 人の自動音声認識をサポートする単一モデルである SeamlessM4T を導入します。
言語。
これを構築するために、100 万時間のオープンスピーチ音声データを使用して、w2v-BERT 2.0 で自己教師あり音声表現を学習しました。
続いて、自動的に調整された音声翻訳のマルチモーダル コーパスを作成しました。
人間がラベル付けしたデータと擬似ラベル付けしたデータをフィルタリングして組み合わせることにより、音声とテキストの両方を英語から英語に翻訳できる初の多言語システムを開発しました。
FLEURS では、SeamlessM4T が複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において以前の SOTA と比較して BLEU の 20% の向上を達成しました。
強力なカスケード モデルと比較して、SeamlessM4T は英語への翻訳の品質を音声からテキストへの変換で 1.3 BLEU ポイント、音声から音声への変換で 2.6 ASR-BLEU ポイント向上させます。
堅牢性をテストした結果、当社のシステムは、現在の SOTA モデルと比較して、音声テキスト変換タスクにおける背景雑音や話者の変動に対してより優れたパフォーマンスを発揮します。
重要なことに、私たちはジェンダーバイアスに関して SeamlessM4T を評価し、翻訳の安全性を評価するために毒性を追加しました。
最後に、この作業のすべての貢献はオープンソースであり、https://github.com/facebookresearch/simless_communication からアクセスできます。
要約(オリジナル)
What does it take to create the Babel Fish, a tool that can help individuals translate speech between any two languages? While recent breakthroughs in text-based models have pushed machine translation coverage beyond 200 languages, unified speech-to-speech translation models have yet to achieve similar strides. More specifically, conventional speech-to-speech translation systems rely on cascaded systems that perform translation progressively, putting high-performing unified systems out of reach. To address these gaps, we introduce SeamlessM4T, a single model that supports speech-to-speech translation, speech-to-text translation, text-to-speech translation, text-to-text translation, and automatic speech recognition for up to 100 languages. To build this, we used 1 million hours of open speech audio data to learn self-supervised speech representations with w2v-BERT 2.0. Subsequently, we created a multimodal corpus of automatically aligned speech translations. Filtered and combined with human-labeled and pseudo-labeled data, we developed the first multilingual system capable of translating from and into English for both speech and text. On FLEURS, SeamlessM4T sets a new standard for translations into multiple target languages, achieving an improvement of 20% BLEU over the previous SOTA in direct speech-to-text translation. Compared to strong cascaded models, SeamlessM4T improves the quality of into-English translation by 1.3 BLEU points in speech-to-text and by 2.6 ASR-BLEU points in speech-to-speech. Tested for robustness, our system performs better against background noises and speaker variations in speech-to-text tasks compared to the current SOTA model. Critically, we evaluated SeamlessM4T on gender bias and added toxicity to assess translation safety. Finally, all contributions in this work are open-sourced and accessible at https://github.com/facebookresearch/seamless_communication
arxiv情報
著者 | Seamless Communication,Loïc Barrault,Yu-An Chung,Mariano Cora Meglioli,David Dale,Ning Dong,Paul-Ambroise Duquenne,Hady Elsahar,Hongyu Gong,Kevin Heffernan,John Hoffman,Christopher Klaiber,Pengwei Li,Daniel Licht,Jean Maillard,Alice Rakotoarison,Kaushik Ram Sadagopan,Guillaume Wenzek,Ethan Ye,Bapi Akula,Peng-Jen Chen,Naji El Hachem,Brian Ellis,Gabriel Mejia Gonzalez,Justin Haaheim,Prangthip Hansanti,Russ Howes,Bernie Huang,Min-Jae Hwang,Hirofumi Inaguma,Somya Jain,Elahe Kalbassi,Amanda Kallet,Ilia Kulikov,Janice Lam,Daniel Li,Xutai Ma,Ruslan Mavlyutov,Benjamin Peloquin,Mohamed Ramadan,Abinesh Ramakrishnan,Anna Sun,Kevin Tran,Tuan Tran,Igor Tufanov,Vish Vogeti,Carleigh Wood,Yilin Yang,Bokai Yu,Pierre Andrews,Can Balioglu,Marta R. Costa-jussà,Onur Celebi,Maha Elbayad,Cynthia Gao,Francisco Guzmán,Justine Kao,Ann Lee,Alexandre Mourachko,Juan Pino,Sravya Popuri,Christophe Ropers,Safiyyah Saleem,Holger Schwenk,Paden Tomasello,Changhan Wang,Jeff Wang,Skyler Wang |
発行日 | 2023-08-23 21:02:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google