ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit

要約

タイトル:ESPnet-ST-v2:多目的口頭言語翻訳ツールキット
要約:
– ESPnet-ST-v2は、話し言葉翻訳コミュニティの広がる関心に応じて作成されたオープンソースのESPnet-STツールキットのリニューアル版です。
– ESPnet-ST-v2は、1)オフライン音声対テキスト翻訳(ST)、2)同時音声対テキスト翻訳(SST)、および3)オフライン音声対音声翻訳(S2ST)をサポートし、それぞれ幅広いアプローチでサポートしています。これらのタスクのそれぞれに、ESPnet-ST-v2は他のオープンソースの話し言語翻訳ツールキットとは異なる特徴を持っています。
– このツールキットには、トランスデューサ、ハイブリッドCTC/注意、検索可能な中間形式を持つ多デコーダ、時間同期ブロック単位のCTC/注意、Translatotronモデル、直接離散単位モデルなどの最先端のアーキテクチャが用意されています。
– この論文では、ESPnet-ST-v2の全体的な設計、各タスクの例題モデル、およびパフォーマンスベンチマークについて説明し、ESPnet-ST-v2はhttps://github.com/espnet/espnetで公開されています。

要約(オリジナル)

ESPnet-ST-v2 is a revamp of the open-source ESPnet-ST toolkit necessitated by the broadening interests of the spoken language translation community. ESPnet-ST-v2 supports 1) offline speech-to-text translation (ST), 2) simultaneous speech-to-text translation (SST), and 3) offline speech-to-speech translation (S2ST) — each task is supported with a wide variety of approaches, differentiating ESPnet-ST-v2 from other open source spoken language translation toolkits. This toolkit offers state-of-the-art architectures such as transducers, hybrid CTC/attention, multi-decoders with searchable intermediates, time-synchronous blockwise CTC/attention, Translatotron models, and direct discrete unit models. In this paper, we describe the overall design, example models for each task, and performance benchmarking behind ESPnet-ST-v2, which is publicly available at https://github.com/espnet/espnet.

arxiv情報

著者 Brian Yan,Jiatong Shi,Yun Tang,Hirofumi Inaguma,Yifan Peng,Siddharth Dalmia,Peter Polák,Patrick Fernandes,Dan Berrebbi,Tomoki Hayashi,Xiaohui Zhang,Zhaoheng Ni,Moto Hira,Soumi Maiti,Juan Pino,Shinji Watanabe
発行日 2023-04-10 14:05:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク