要約
スピーカー依存モデリングは、音声ベースの健康監視アプリケーションのパフォーマンスを大幅に改善できます。
このようなスピーカーの適応には混合効果モデルが一般的に使用されますが、新しい観察するたびに計算上の高価な再訓練が必要であり、生産環境では非現実的なものにします。
このタスクをメタラーニングの問題として再定式化し、複雑さを高める3つのアプローチ、アンサンブルベースの距離モデル、プロトタイプネットワーク、トランスベースのシーケンスモデルを探ります。
事前に訓練された音声埋め込みを使用して、これらの方法をシフトワーカーの大きな縦断的データセット(n = 1,185、10,286録音)で評価し、疲労の関数としての音声からの睡眠からの時間を予測します。これは、一般的に健康に関連する症状です。
我々の結果は、テストされたすべてのメタラーニングアプローチが、トランスベースの方法が最も強力なパフォーマンスを実現し、断面および従来の混合効果モデルよりも優れていることを示しています。
要約(オリジナル)
Speaker-dependent modelling can substantially improve performance in speech-based health monitoring applications. While mixed-effect models are commonly used for such speaker adaptation, they require computationally expensive retraining for each new observation, making them impractical in a production environment. We reformulate this task as a meta-learning problem and explore three approaches of increasing complexity: ensemble-based distance models, prototypical networks, and transformer-based sequence models. Using pre-trained speech embeddings, we evaluate these methods on a large longitudinal dataset of shift workers (N=1,185, 10,286 recordings), predicting time since sleep from speech as a function of fatigue, a symptom commonly associated with ill-health. Our results demonstrate that all meta-learning approaches tested outperformed both cross-sectional and conventional mixed-effects models, with a transformer-based method achieving the strongest performance.
arxiv情報
著者 | Roseline Polle,Agnes Norbury,Alexandra Livia Georgescu,Nicholas Cummins,Stefano Goria |
発行日 | 2025-06-02 10:11:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google