ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit

要約

ESPnet-ST-v2 は、音声言語翻訳コミュニティの関心の拡大によって必要とされた、オープンソース ESPnet-ST ツールキットの改良版です。
ESPnet-ST-v2 は、1) オフライン音声からテキストへの翻訳 (ST)、2) 同時音声からテキストへの翻訳 (SST)、および 3) オフライン音声からテキストへの翻訳 (S2ST) をサポートしています。各タスクは
さまざまなアプローチでサポートされており、ESPnet-ST-v2 を他のオープンソースの音声言語翻訳ツールキットと区別しています。
このツールキットは、トランスデューサー、ハイブリッド CTC/アテンション、検索可能な中間体を備えたマルチデコーダー、時間同期ブロックごとの CTC/アテンション、Translatotron モデル、直接離散ユニット モデルなどの最先端のアーキテクチャを提供します。
このペーパーでは、https://github.com/espnet/espnet で公開されている ESPnet-ST-v2 の背後にある全体的な設計、各タスクのモデル例、パフォーマンス ベンチマークについて説明します。

要約(オリジナル)

ESPnet-ST-v2 is a revamp of the open-source ESPnet-ST toolkit necessitated by the broadening interests of the spoken language translation community. ESPnet-ST-v2 supports 1) offline speech-to-text translation (ST), 2) simultaneous speech-to-text translation (SST), and 3) offline speech-to-speech translation (S2ST) — each task is supported with a wide variety of approaches, differentiating ESPnet-ST-v2 from other open source spoken language translation toolkits. This toolkit offers state-of-the-art architectures such as transducers, hybrid CTC/attention, multi-decoders with searchable intermediates, time-synchronous blockwise CTC/attention, Translatotron models, and direct discrete unit models. In this paper, we describe the overall design, example models for each task, and performance benchmarking behind ESPnet-ST-v2, which is publicly available at https://github.com/espnet/espnet.

arxiv情報

著者 Brian Yan,Jiatong Shi,Yun Tang,Hirofumi Inaguma,Yifan Peng,Siddharth Dalmia,Peter Polák,Patrick Fernandes,Dan Berrebbi,Tomoki Hayashi,Xiaohui Zhang,Zhaoheng Ni,Moto Hira,Soumi Maiti,Juan Pino,Shinji Watanabe
発行日 2023-07-06 20:07:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク