要約
シーケンスレベルの基準に基づいて学習されたトランスデューサモデルは、大きな確率行列を生成するため、多くのメモリを必要とする。我々は、フレームレベル基準に基づく軽量なトランスデューサーモデルを提案した。このモデルは、CTC強制アライメントアルゴリズムの結果を用いて、各フレームのラベルを決定する。そして、トランスデューサのようにエンコーダが出力する各要素をデコーダが出力する各要素に加算するのではなく、エンコーダ出力を対応するタイミングでデコーダ出力と結合することができる。これにより、メモリと計算要件が大幅に削減される。ラベル中の過剰な空白によって引き起こされる不均衡な分類の問題に対処するため、空白と非空白の確率を切り離し、空白分類器の勾配をメインネットワークに切り捨てる。AISHELL-1での実験では、これにより軽量トランスデューサがトランスデューサと同様の結果を達成できることが実証された。さらに、より豊富な情報を用いて空白の確率を予測し、transducerよりも優れた結果を達成する。
要約(オリジナル)
The transducer model trained based on sequence-level criterion requires a lot of memory due to the generation of the large probability matrix. We proposed a lightweight transducer model based on frame-level criterion, which uses the results of the CTC forced alignment algorithm to determine the label for each frame. Then the encoder output can be combined with the decoder output at the corresponding time, rather than adding each element output by the encoder to each element output by the decoder as in the transducer. This significantly reduces memory and computation requirements. To address the problem of imbalanced classification caused by excessive blanks in the label, we decouple the blank and non-blank probabilities and truncate the gradient of the blank classifier to the main network. Experiments on the AISHELL-1 demonstrate that this enables the lightweight transducer to achieve similar results to transducer. Additionally, we use richer information to predict the probability of blank, achieving superior results to transducer.
arxiv情報
著者 | Genshun Wan,Mengzhi Wang,Tingzhi Mao,Hang Chen,Zhongfu Ye |
発行日 | 2024-11-01 06:08:08+00:00 |
arxivサイト | arxiv_id(pdf) |