要約
エンドツーエンドの音声認識モデルの数は年々増加しています。
これらのモデルは新しいドメインや言語に適応されることが多く、その結果、ターゲット データに対して優れた結果を達成するエキスパート システムが急増しますが、専門知識の領域外ではパフォーマンスが劣ることが一般的です。
私たちは、信頼ベースのアンサンブル、つまり最も信頼性の高いモデルの出力のみが使用されるモデルのアンサンブルを介して、そのような専門家の組み合わせを調査します。
モデルのターゲット データは、小規模な検証セットを除いて利用できないと仮定します。
2 つのアプリケーションを使用して、アプローチの有効性を実証します。
まず、5 つの単言語モデルの信頼度に基づくアンサンブルが、専用の言語識別ブロックを介してモデル選択が実行されるシステムよりも優れていることを示します。
次に、ベース モデルと適応モデルを組み合わせて、元のデータとターゲット データの両方で強力な結果を達成できることを示します。
すべての結果を複数のデータセットとモデル アーキテクチャで検証します。
要約(オリジナル)
The number of end-to-end speech recognition models grows every year. These models are often adapted to new domains or languages resulting in a proliferation of expert systems that achieve great results on target data, while generally showing inferior performance outside of their domain of expertise. We explore combination of such experts via confidence-based ensembles: ensembles of models where only the output of the most-confident model is used. We assume that models’ target data is not available except for a small validation set. We demonstrate effectiveness of our approach with two applications. First, we show that a confidence-based ensemble of 5 monolingual models outperforms a system where model selection is performed via a dedicated language identification block. Second, we demonstrate that it is possible to combine base and adapted models to achieve strong results on both original and target data. We validate all our results on multiple datasets and model architectures.
arxiv情報
著者 | Igor Gitman,Vitaly Lavrukhin,Aleksandr Laptev,Boris Ginsburg |
発行日 | 2023-06-27 23:13:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google