要約
このペーパーでは、監視なしで監視されたAL方法を組み合わせた、自動音声認識(ASR)のための新しい2段階アクティブラーニング(AL)パイプラインを紹介します。
最初の段階では、X-Vectorsクラスタリングを使用して、無効な音声データからの多様なサンプル選択を使用して、監視されていないALを利用して、後続の監視されたALの堅牢な初期データセットを確立します。
第2段階には、サンプルの多様で有益なバッチを選択することを目的としたASR専用に開発されたバッチALメソッドを備えた監視されたAL戦略が組み込まれています。
ここでは、サンプルの多様性もXベクタークラスタリングを使用して達成されますが、最も有益なサンプルは、モンテカルロドロップアウトを適応させてベイジアン推論を近似して、ASRに合わせたベイズALメソッドを使用して特定されます。
このアプローチにより、正確な不確実性の推定が可能になり、データ要件が大幅に削減されたASRモデルトレーニングが強化されます。
私たちの方法は、均質、不均一、およびOODテストセットに関する競合する方法と比較して優れた性能を示しており、戦略的なサンプル選択と革新的なベイジアンモデリングが、深い学習ベースのASRアプリケーションでのラベル付けの取り組みとデータ利用の両方を大幅に最適化できることを示しています。
要約(オリジナル)
This paper introduces a novel two-stage active learning (AL) pipeline for automatic speech recognition (ASR), combining unsupervised and supervised AL methods. The first stage utilizes unsupervised AL by using x-vectors clustering for diverse sample selection from unlabeled speech data, thus establishing a robust initial dataset for the subsequent supervised AL. The second stage incorporates a supervised AL strategy, with a batch AL method specifically developed for ASR, aimed at selecting diverse and informative batches of samples. Here, sample diversity is also achieved using x-vectors clustering, while the most informative samples are identified using a Bayesian AL method tailored for ASR with an adaptation of Monte Carlo dropout to approximate Bayesian inference. This approach enables precise uncertainty estimation, thereby enhancing ASR model training with significantly reduced data requirements. Our method has shown superior performance compared to competing methods on homogeneous, heterogeneous, and OOD test sets, demonstrating that strategic sample selection and innovative Bayesian modeling can substantially optimize both labeling effort and data utilization in deep learning-based ASR applications.
arxiv情報
著者 | Ognjen Kundacina,Vladimir Vincan,Dragisa Miskovic |
発行日 | 2025-04-25 06:24:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google