要約
このペーパーでは、句読点復元 (PR)、トゥルーケーシング、および逆テキスト正規化 (ITN) を含む、商用自動音声認識 (ASR) システム用に設計された全ニューラル テキスト フォーマット (TF) モデルを紹介します。
従来のルールベースまたはハイブリッドのアプローチとは異なり、この方法は、多目的トークン分類器とシーケンスツーシーケンス (seq2seq) モデルで構成される 2 段階のニューラル アーキテクチャを利用します。
この設計により、さまざまな言語エンティティやテキスト ドメインにわたる柔軟性と堅牢性が確保されながら、計算コストが最小限に抑えられ、幻覚が軽減されます。
Universal-2 ASR システムの一部として開発された提案手法は、客観的手法と主観的手法の両方を使用した包括的な評価を通じて検証されたように、TF 精度、計算効率、知覚品質において優れたパフォーマンスを示しています。
この研究は、実際の設定で ASR の使いやすさを向上させるための総合的な TF モデルの重要性を強調しています。
要約(オリジナル)
This paper introduces an all-neural text formatting (TF) model designed for commercial automatic speech recognition (ASR) systems, encompassing punctuation restoration (PR), truecasing, and inverse text normalization (ITN). Unlike traditional rule-based or hybrid approaches, this method leverages a two-stage neural architecture comprising a multi-objective token classifier and a sequence-to-sequence (seq2seq) model. This design minimizes computational costs and reduces hallucinations while ensuring flexibility and robustness across diverse linguistic entities and text domains. Developed as part of the Universal-2 ASR system, the proposed method demonstrates superior performance in TF accuracy, computational efficiency, and perceptual quality, as validated through comprehensive evaluations using both objective and subjective methods. This work underscores the importance of holistic TF models in enhancing ASR usability in practical settings.
arxiv情報
著者 | Yash Khare,Taufiquzzaman Peyash,Andrea Vanzo,Takuya Yoshioka |
発行日 | 2025-01-10 13:21:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google