Uncertainty Modeling in Multimodal Speech Analysis Across the Psychosis Spectrum

要約

精神病スペクトル全体で微妙な発話の混乱を捉えることは、音声パターンに固有の変動性のために困難です。
この変動性は、臨床集団と非臨床集団の両方における個人差と症状の変動性を反映しています。
音声データの不確実性を考慮することは、症状の重症度を予測し、診断精度を改善するために不可欠です。
精神病の特徴的な発話の混乱は、非臨床的な個人を含むスペクトル全体に現れます。
症状の重症度と精神病関連の特性を予測するために、音響と言語の特徴を統合する不確実性を意識したモデルを開発します。
特定のモダリティの不確実性を定量化することにより、モデルは音声の変動性に対処し、予測の精度を向上させることができます。
早期精神病の32人と82人の統合失調症を含む82人を含む114人の参加者からの音声データを分析しました。
このモデルは予測精度を改善し、RMSEを減らし、ECE = 4.5E-2で83%のF1スコアを達成し、異なる相互作用コンテキストで堅牢なパフォーマンスを示しました。
不確実性の推定により、ピッチの変動、流encyの破壊、スペクトルの不安定性などの音声マーカーの信頼性の違いを特定することにより、モデルの解釈性が向上しました。
このモデルは、タスク構造に動的に調整され、構造化された設定で音響特徴を重み付けし、非構造化されたコンテキストで言語機能を重み付けします。
このアプローチは、精神病スペクトル研究における早期の検出、パーソナライズされた評価、臨床的意思決定を強化します。

要約(オリジナル)

Capturing subtle speech disruptions across the psychosis spectrum is challenging because of the inherent variability in speech patterns. This variability reflects individual differences and the fluctuating nature of symptoms in both clinical and non-clinical populations. Accounting for uncertainty in speech data is essential for predicting symptom severity and improving diagnostic precision. Speech disruptions characteristic of psychosis appear across the spectrum, including in non-clinical individuals. We develop an uncertainty-aware model integrating acoustic and linguistic features to predict symptom severity and psychosis-related traits. Quantifying uncertainty in specific modalities allows the model to address speech variability, improving prediction accuracy. We analyzed speech data from 114 participants, including 32 individuals with early psychosis and 82 with low or high schizotypy, collected through structured interviews, semi-structured autobiographical tasks, and narrative-driven interactions in German. The model improved prediction accuracy, reducing RMSE and achieving an F1-score of 83% with ECE = 4.5e-2, showing robust performance across different interaction contexts. Uncertainty estimation improved model interpretability by identifying reliability differences in speech markers such as pitch variability, fluency disruptions, and spectral instability. The model dynamically adjusted to task structures, weighting acoustic features more in structured settings and linguistic features in unstructured contexts. This approach strengthens early detection, personalized assessment, and clinical decision-making in psychosis-spectrum research.

arxiv情報

著者 Morteza Rohanian,Roya M. Hüppi,Farhad Nooralahzadeh,Noemi Dannecker,Yves Pauli,Werner Surbeck,Iris Sommer,Wolfram Hinzen,Nicolas Langer,Michael Krauthammer,Philipp Homan
発行日 2025-02-25 15:19:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク