ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit

要約

タイトル：ESPnet-ST-v2：多目的口頭言語翻訳ツールキット
要約：
– ESPnet-ST-v2は、話し言葉翻訳コミュニティの広がる関心に応じて作成されたオープンソースのESPnet-STツールキットのリニューアル版です。
– ESPnet-ST-v2は、1）オフライン音声対テキスト翻訳（ST）、2）同時音声対テキスト翻訳（SST）、および3）オフライン音声対音声翻訳（S2ST）をサポートし、それぞれ幅広いアプローチでサポートしています。これらのタスクのそれぞれに、ESPnet-ST-v2は他のオープンソースの話し言語翻訳ツールキットとは異なる特徴を持っています。
– このツールキットには、トランスデューサ、ハイブリッドCTC/注意、検索可能な中間形式を持つ多デコーダ、時間同期ブロック単位のCTC/注意、Translatotronモデル、直接離散単位モデルなどの最先端のアーキテクチャが用意されています。
– この論文では、ESPnet-ST-v2の全体的な設計、各タスクの例題モデル、およびパフォーマンスベンチマークについて説明し、ESPnet-ST-v2はhttps://github.com/espnet/espnetで公開されています。

要約(オリジナル)

ESPnet-ST-v2 is a revamp of the open-source ESPnet-ST toolkit necessitated by the broadening interests of the spoken language translation community. ESPnet-ST-v2 supports 1) offline speech-to-text translation (ST), 2) simultaneous speech-to-text translation (SST), and 3) offline speech-to-speech translation (S2ST) — each task is supported with a wide variety of approaches, differentiating ESPnet-ST-v2 from other open source spoken language translation toolkits. This toolkit offers state-of-the-art architectures such as transducers, hybrid CTC/attention, multi-decoders with searchable intermediates, time-synchronous blockwise CTC/attention, Translatotron models, and direct discrete unit models. In this paper, we describe the overall design, example models for each task, and performance benchmarking behind ESPnet-ST-v2, which is publicly available at https://github.com/espnet/espnet.

arxiv情報

著者	Brian Yan,Jiatong Shi,Yun Tang,Hirofumi Inaguma,Yifan Peng,Siddharth Dalmia,Peter Polák,Patrick Fernandes,Dan Berrebbi,Tomoki Hayashi,Xiaohui Zhang,Zhaoheng Ni,Moto Hira,Soumi Maiti,Juan Pino,Shinji Watanabe
発行日	2023-04-10 14:05:22+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー