LAST: Scalable Lattice-Based Speech Modelling in JAX

要約

タイトル:LAST: JAXにおけるスケーラブルな格子ベース音声モデリング

要約:
・ LASTは、JAXにおける格子ベース音声トランスデューサライブラリです。
・ 柔軟性、使いやすさ、スケーラビリティに重点を置いており、大規模なWFSA(重み付け有限状態オートマトン)に対応するために必要な異なる可能性のあるWFSAアルゴリズムを実装しています。
・これらのWFSAアルゴリズムは、既存の文献で知られているものであるにもかかわらず、現代のアーキテクチャの性能特性や自動微分の微妙なニュアンスなど、新しい課題が生じます。
・ LASTで採用されている一連の一般的に適用可能な技術を説明し、TPUv3およびV100 GPU上のベンチマークでその効果を実証しています。

要約(オリジナル)

We introduce LAST, a LAttice-based Speech Transducer library in JAX. With an emphasis on flexibility, ease-of-use, and scalability, LAST implements differentiable weighted finite state automaton (WFSA) algorithms needed for training \& inference that scale to a large WFSA such as a recognition lattice over the entire utterance. Despite these WFSA algorithms being well-known in the literature, new challenges arise from performance characteristics of modern architectures, and from nuances in automatic differentiation. We describe a suite of generally applicable techniques employed in LAST to address these challenges, and demonstrate their effectiveness with benchmarks on TPUv3 and V100 GPU.

arxiv情報

著者 Ke Wu,Ehsan Variani,Tom Bagby,Michael Riley
発行日 2023-04-25 20:25:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク