要約
TITLE – ESPnet-ST-v2:多目的音声言語翻訳ツールキット
– ESPnet-ST-v2は、音声言語翻訳コミュニティの関心の拡大に必要なオープンソースESPnet-STツールキットの見直しです。
– ESPnet-ST-v2は、1)オフライン音声からテキストへの翻訳(ST)、2)同時音声からテキストへの翻訳(SST)、3)オフライン音声から音声への翻訳(S2ST)をサポートしており、それぞれのタスクにはさまざまなアプローチがあり、ESPnet-ST-v2は他のオープンソース音声言語翻訳ツールキットと差別化されています。
– このツールキットは、トランスデューサ、ハイブリッドCTC /アテンション、検索可能な中間層を持つマルチデコーダ、時間同期的なブロック単位のCTC /アテンション、トランスラトロンモデル、直接的な離散ユニットモデルなどの最新のアーキテクチャを提供しています。
– この論文では、ESPnet-ST-v2の全体的な設計、各タスクの例のモデル、およびパフォーマンスのベンチマークについて説明し、GitHubで公開されているhttps://github.com/espnet/espnetで利用できます。
要約(オリジナル)
ESPnet-ST-v2 is a revamp of the open-source ESPnet-ST toolkit necessitated by the broadening interests of the spoken language translation community. ESPnet-ST-v2 supports 1) offline speech-to-text translation (ST), 2) simultaneous speech-to-text translation (SST), and 3) offline speech-to-speech translation (S2ST) — each task is supported with a wide variety of approaches, differentiating ESPnet-ST-v2 from other open source spoken language translation toolkits. This toolkit offers state-of-the-art architectures such as transducers, hybrid CTC/attention, multi-decoders with searchable intermediates, time-synchronous blockwise CTC/attention, Translatotron models, and direct discrete unit models. In this paper, we describe the overall design, example models for each task, and performance benchmarking behind ESPnet-ST-v2, which is publicly available at https://github.com/espnet/espnet.
arxiv情報
著者 | Brian Yan,Jiatong Shi,Yun Tang,Hirofumi Inaguma,Yifan Peng,Siddharth Dalmia,Peter Polák,Patrick Fernandes,Dan Berrebbi,Tomoki Hayashi,Xiaohui Zhang,Zhaoheng Ni,Moto Hira,Soumi Maiti,Juan Pino,Shinji Watanabe |
発行日 | 2023-04-11 17:44:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI