Automated speech audiometry: Can it work using open-source pre-trained Kaldi-NL automatic speech recognition?

要約

実用的な音声聴力測定ツールは、さまざまな年齢や聴力状態の集団の聴力スクリーニングのためのノイズインデジット (DIN) テストです。
テストは通常​​、リスナーが話した応答を採点する人間の監督者 (臨床医など) によって実施されるか、またはオンラインで、リスナーが入力した応答をソフトウェアが採点することで実施されます。
このテストには、適応階段手順で提示される 24 個の数字の 3 つ組があり、音声受信閾値 (SRT) が得られます。
私たちは、オープンソースの自動音声認識ツールキットである Kaldi-NL を使用して、人間の監督なしで実施しながら音声応答を評価できる、代替の自動 DIN テスト設定を提案します。
自己申告による正常聴力のオランダ人成人(19~64歳)30名が、DIN+Kaldi-NLテストを1回完了した。
彼らの音声応答は記録され、Kaldi-NL による解読された応答の転写を評価するために使用されました。
研究 1 では、単語誤り率 (WER)、つまり、音声応答に存在する合計桁数と比較した、トランスクリプト内で見つかった桁のみに関する復号エラーの合計の割合を通じて、Kaldi-NL のパフォーマンスを評価しました。
参加者全体の平均 WER は 5.0% (範囲 0 ~ 48%、SD = 8.8%) で、平均復号エラーは参加者あたり 3 つのトリプレットで発生しました。
研究 2 では、ブートストラップ シミュレーションを使用して、Kaldi-NL からのデコード エラーのあるトリプレットが DIN テスト出力 (SRT) に与える影響を分析しました。
以前の研究では、健聴の成人の典型的な被験者内 SRT 変動として 0.70 dB が示されています。
研究 2 では、デコードエラーのある最大 4 つのトリプレットがこの範囲内の SRT 変動を生成することが示されており、提案された設定が臨床応用に実行可能である可能性があることが示唆されています。

要約(オリジナル)

A practical speech audiometry tool is the digits-in-noise (DIN) test for hearing screening of populations of varying ages and hearing status. The test is usually conducted by a human supervisor (e.g., clinician), who scores the responses spoken by the listener, or online, where a software scores the responses entered by the listener. The test has 24 digit-triplets presented in an adaptive staircase procedure, resulting in a speech reception threshold (SRT). We propose an alternative automated DIN test setup that can evaluate spoken responses whilst conducted without a human supervisor, using the open-source automatic speech recognition toolkit, Kaldi-NL. Thirty self-reported normal-hearing Dutch adults (19-64 years) completed one DIN+Kaldi-NL test. Their spoken responses were recorded, and used for evaluating the transcript of decoded responses by Kaldi-NL. Study 1 evaluated the Kaldi-NL performance through its word error rate (WER), percentage of summed decoding errors regarding only digits found in the transcript compared to the total number of digits present in the spoken responses. Average WER across participants was 5.0% (range 0 – 48%, SD = 8.8%), with average decoding errors in three triplets per participant. Study 2 analysed the effect that triplets with decoding errors from Kaldi-NL had on the DIN test output (SRT), using bootstrapping simulations. Previous research indicated 0.70 dB as the typical within-subject SRT variability for normal-hearing adults. Study 2 showed that up to four triplets with decoding errors produce SRT variations within this range, suggesting that our proposed setup could be feasible for clinical applications.

arxiv情報

著者 Gloria Araiza-Illan,Luke Meyer,Khiet P. Truong,Deniz Baskent
発行日 2024-01-11 15:37:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク