Speech foundation models in healthcare: Effect of layer selection on pathological speech feature prediction

要約

音声から臨床情報を正確に抽出することは、多くの神経学的症状の診断と治療にとって重要です。
そのため、言語障害の診断と治療を促進するために、臨床音声を自動的に客観的に評価するために AI を活用することに関心が集まっています。
病的な音声特徴を予測する下流タスクに対する層選択の影響に焦点を当て、基礎モデルを使用した転移学習を調査します。
最適なレイヤーを選択すると、パフォーマンスが大幅に向上することがわかります (最悪のレイヤーと比較してフィーチャあたりのバランスのとれた精度が最大 15.8% 増加、最終レイヤーと比較して最大 13.6% 増加)。ただし、最適なレイヤーは予測されたフィーチャによって異なり、常に一致するとは限りません。
目に見えないデータまでうまく一般化します。
学習された加重合計は、分布内の平均最良レイヤーと同等のパフォーマンス (わずか約 1.2% 低い) を提供し、分布外データに対して強力な一般化が行われました (平均最良レイヤーよりもわずか 1.5% 低い)。

要約(オリジナル)

Accurately extracting clinical information from speech is critical to the diagnosis and treatment of many neurological conditions. As such, there is interest in leveraging AI for automatic, objective assessments of clinical speech to facilitate diagnosis and treatment of speech disorders. We explore transfer learning using foundation models, focusing on the impact of layer selection for the downstream task of predicting pathological speech features. We find that selecting an optimal layer can greatly improve performance (~15.8% increase in balanced accuracy per feature as compared to worst layer, ~13.6% increase as compared to final layer), though the best layer varies by predicted feature and does not always generalize well to unseen data. A learned weighted sum offers comparable performance to the average best layer in-distribution (only ~1.2% lower) and had strong generalization for out-of-distribution data (only 1.5% lower than the average best layer).

arxiv情報

著者 Daniela A. Wiepert,Rene L. Utianski,Joseph R. Duffy,John L. Stricker,Leland R. Barnard,David T. Jones,Hugo Botha
発行日 2024-06-21 13:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS パーマリンク