要約
タイトル:LAST: JAXにおけるスケーラブルな格子ベース音声モデリング
要約:
・ LASTは、JAXにおける格子ベース音声トランスデューサライブラリです。
・ 柔軟性、使いやすさ、スケーラビリティに重点を置いており、大規模なWFSA(重み付け有限状態オートマトン)に対応するために必要な異なる可能性のあるWFSAアルゴリズムを実装しています。
・これらのWFSAアルゴリズムは、既存の文献で知られているものであるにもかかわらず、現代のアーキテクチャの性能特性や自動微分の微妙なニュアンスなど、新しい課題が生じます。
・ LASTで採用されている一連の一般的に適用可能な技術を説明し、TPUv3およびV100 GPU上のベンチマークでその効果を実証しています。
要約(オリジナル)
We introduce LAST, a LAttice-based Speech Transducer library in JAX. With an emphasis on flexibility, ease-of-use, and scalability, LAST implements differentiable weighted finite state automaton (WFSA) algorithms needed for training \& inference that scale to a large WFSA such as a recognition lattice over the entire utterance. Despite these WFSA algorithms being well-known in the literature, new challenges arise from performance characteristics of modern architectures, and from nuances in automatic differentiation. We describe a suite of generally applicable techniques employed in LAST to address these challenges, and demonstrate their effectiveness with benchmarks on TPUv3 and V100 GPU.
arxiv情報
著者 | Ke Wu,Ehsan Variani,Tom Bagby,Michael Riley |
発行日 | 2023-04-25 20:25:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI