ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit

要約

TITLE – ESPnet-ST-v2:多目的音声言語翻訳ツールキット
– ESPnet-ST-v2は、音声言語翻訳コミュニティの関心の拡大に必要なオープンソースESPnet-STツールキットの見直しです。
– ESPnet-ST-v2は、1)オフライン音声からテキストへの翻訳(ST)、2)同時音声からテキストへの翻訳(SST)、3)オフライン音声から音声への翻訳(S2ST)をサポートしており、それぞれのタスクにはさまざまなアプローチがあり、ESPnet-ST-v2は他のオープンソース音声言語翻訳ツールキットと差別化されています。
– このツールキットは、トランスデューサ、ハイブリッドCTC /アテンション、検索可能な中間層を持つマルチデコーダ、時間同期的なブロック単位のCTC /アテンション、トランスラトロンモデル、直接的な離散ユニットモデルなどの最新のアーキテクチャを提供しています。
– この論文では、ESPnet-ST-v2の全体的な設計、各タスクの例のモデル、およびパフォーマンスのベンチマークについて説明し、GitHubで公開されているhttps://github.com/espnet/espnetで利用できます。

要約(オリジナル)

ESPnet-ST-v2 is a revamp of the open-source ESPnet-ST toolkit necessitated by the broadening interests of the spoken language translation community. ESPnet-ST-v2 supports 1) offline speech-to-text translation (ST), 2) simultaneous speech-to-text translation (SST), and 3) offline speech-to-speech translation (S2ST) — each task is supported with a wide variety of approaches, differentiating ESPnet-ST-v2 from other open source spoken language translation toolkits. This toolkit offers state-of-the-art architectures such as transducers, hybrid CTC/attention, multi-decoders with searchable intermediates, time-synchronous blockwise CTC/attention, Translatotron models, and direct discrete unit models. In this paper, we describe the overall design, example models for each task, and performance benchmarking behind ESPnet-ST-v2, which is publicly available at https://github.com/espnet/espnet.

arxiv情報

著者 Brian Yan,Jiatong Shi,Yun Tang,Hirofumi Inaguma,Yifan Peng,Siddharth Dalmia,Peter Polák,Patrick Fernandes,Dan Berrebbi,Tomoki Hayashi,Xiaohui Zhang,Zhaoheng Ni,Moto Hira,Soumi Maiti,Juan Pino,Shinji Watanabe
発行日 2023-04-11 17:44:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク