Large-scale Language Model Rescoring on Long-form Data

要約

この研究では、長文 ASR のソースとして使用する YouTube ビデオの自動音声認識 (ASR) に対する大規模言語モデル (LLM) の影響を研究します。
米国英語 (en-us) およびコード交換インド英語 (en-in) の長形式 ASR テスト セットでは、Word Error Eate (WER) が相対的に最大 8\% 減少し、最大 30\% 減少することが実証されています。
最大エントロピー ベースの言語モデルを使用する強力な初回パス ベースラインに対する顕著項誤り率 (STER) の相対値。
適切な (非ツリー) 有向グラフ トポロジを備えたラティスと、前のセグメントの 1-best 仮説からのコンテキストを保持するラティス処理の改善により、LLM によるスコアリングで大幅な勝利が得られます。
また、利用可能な膨大な量のデータ (C4 など) でトレーニングされた LLM と従来のニューラル LM の組み合わせによるパフォーマンスの向上は相加的であり、最大エントロピー LM による強力な初回パス ベースラインを大幅に上回っていることもわかりました。
著作権 2023 IEEE。
この素材の個人的な使用は許可されています。
現在または将来のメディアでのその他すべての使用には、広告または宣伝目的でのこの素材の再版/再発行、新しい集合作品の作成、サーバーまたはリストへの再販または再配布、または著作権で保護されたコンポーネントの再利用を含む、IEEE からの許可を取得する必要があります。
この作品の他の作品。

要約(オリジナル)

In this work, we study the impact of Large-scale Language Models (LLM) on Automated Speech Recognition (ASR) of YouTube videos, which we use as a source for long-form ASR. We demonstrate up to 8\% relative reduction in Word Error Eate (WER) on US English (en-us) and code-switched Indian English (en-in) long-form ASR test sets and a reduction of up to 30\% relative on Salient Term Error Rate (STER) over a strong first-pass baseline that uses a maximum-entropy based language model. Improved lattice processing that results in a lattice with a proper (non-tree) digraph topology and carrying context from the 1-best hypothesis of the previous segment(s) results in significant wins in rescoring with LLMs. We also find that the gains in performance from the combination of LLMs trained on vast quantities of available data (such as C4) and conventional neural LMs is additive and significantly outperforms a strong first-pass baseline with a maximum entropy LM. Copyright 2023 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works.

arxiv情報

著者 Tongzhou Chen,Cyril Allauzen,Yinghui Huang,Daniel Park,David Rybach,W. Ronny Huang,Rodrigo Cabrera,Kartik Audhkhasi,Bhuvana Ramabhadran,Pedro J. Moreno,Michael Riley
発行日 2023-09-05 20:50:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク