要約
通常、外部言語モデルを使用しない CTC ベースの自動音声認識 (ASR) モデルには、条件付きの依存関係とテキストの相互作用をモデル化する機能がありません。
このホワイト ペーパーでは、CTC ベースのモデルのパフォーマンスを向上させる Gated Interlayer Collaboration (GIC) メカニズムを提示します。これは、テキスト情報をモデルに導入し、CTC ベースのモデルの条件付き独立性の仮定を緩和します。
具体的には、トークン埋め込みの重み付き合計を各位置のテキスト表現と見なします。ここで、位置固有の重みは、レイヤー間補助 CTC 損失を介して構築されたソフトマックス確率分布です。
次に、テキスト表現は、ゲートユニットを開発することによって音響特性と融合されます。
AISHELL-1、TEDLIUM2、および AIDATATANG コーパスに関する実験では、提案された方法がいくつかの強力なベースラインよりも優れていることが示されています。
要約(オリジナル)
The CTC-based automatic speech recognition (ASR) models without the external language model usually lack the capacity to model conditional dependencies and textual interactions. In this paper, we present a Gated Interlayer Collaboration (GIC) mechanism to improve the performance of CTC-based models, which introduces textual information into the model and thus relaxes the conditional independence assumption of CTC-based models. Specifically, we consider the weighted sum of token embeddings as the textual representation for each position, where the position-specific weights are the softmax probability distribution constructed via inter-layer auxiliary CTC losses. The textual representations are then fused with acoustic features by developing a gate unit. Experiments on AISHELL-1, TEDLIUM2, and AIDATATANG corpora show that the proposed method outperforms several strong baselines.
arxiv情報
著者 | Yuting Yang,Yuke Li,Binbin Du |
発行日 | 2023-03-14 08:11:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google