要約
生態環境にある患者からウェアラブルを使用して受動的かつほぼ継続的に収集されたデータを活用するパーソナルセンシングは、世界的な疾病負荷の主な決定要因である気分障害(MD)を監視するための有望なパラダイムです。
ただし、ウェアラブル データの収集と注釈付けは非常にリソースを大量に消費します。
したがって、この種の研究では通常、数十人の患者しか募集できません。
これは、最新の教師あり機械学習技術を MD 検出に適用する際の大きな障害の 1 つです。
この論文では、このデータのボトルネックを克服し、最近の自己教師あり学習 (SSL) の進歩を背景に、ウェアラブル データからの MD の急性エピソードと安定状態の検出を進めます。
これは、ラベルのないデータを活用して事前トレーニング中に表現を学習し、その後教師ありタスクに活用します。
まず、MD モニタリングとは関係のない、スーパー マリオ プレーヤーの感情認識から学部生のストレス検出まで、さまざまな個人センシング タスクを記録する Empatica E4 を使用して記録したオープンアクセス データセットを収集し、以下の処理を実行する前処理パイプラインを考案しました。
/オフボディ検出、睡眠覚醒検出、セグメンテーション、および (オプションで) 特徴抽出。
161 の E4 で記録された主題を含む、これまでで最大のオープン アクセス コレクションである E4SelfLearning とその前処理パイプラインを紹介します。
次に、SSL は、新しい E4 に合わせた Transformer アーキテクチャ (E4mer) または従来のベースライン XGBoost のいずれかを使用して、完全に監視されたパイプラインを自信を持って上回っていることを示します。 64 (
半分が急性、半分が安定)の患者。
最後に、SSL のパフォーマンスが、ラベルのないデータの可用性だけでなく、事前トレーニングに使用される特定のサロゲート タスクにも強く関連していることを示します。
要約(オリジナル)
Personal sensing, leveraging data passively and near-continuously collected with wearables from patients in their ecological environment, is a promising paradigm to monitor mood disorders (MDs), a major determinant of worldwide disease burden. However, collecting and annotating wearable data is very resource-intensive. Studies of this kind can thus typically afford to recruit only a couple dozens of patients. This constitutes one of the major obstacles to applying modern supervised machine learning techniques to MDs detection. In this paper, we overcome this data bottleneck and advance the detection of MDs acute episode vs stable state from wearables data on the back of recent advances in self-supervised learning (SSL). This leverages unlabelled data to learn representations during pre-training, subsequently exploited for a supervised task. First, we collected open-access datasets recording with an Empatica E4 spanning different, unrelated to MD monitoring, personal sensing tasks — from emotion recognition in Super Mario players to stress detection in undergraduates — and devised a pre-processing pipeline performing on-/off-body detection, sleep-wake detection, segmentation, and (optionally) feature extraction. With 161 E4-recorded subjects, we introduce E4SelfLearning, the largest to date open access collection, and its pre-processing pipeline. Second, we show that SSL confidently outperforms fully-supervised pipelines using either our novel E4-tailored Transformer architecture (E4mer) or classical baseline XGBoost: 81.23% against 75.35% (E4mer) and 72.02% (XGBoost) correctly classified recording segments from 64 (half acute, half stable) patients. Lastly, we illustrate that SSL performance is strongly associated with the specific surrogate task employed for pre-training as well as with unlabelled data availability.
arxiv情報
著者 | Filippo Corponi,Bryan M. Li,Gerard Anmella,Clàudia Valenzuela-Pascual,Ariadna Mas,Isabella Pacchiarotti,Marc Valentí,Iria Grande,Antonio Benabarre,Marina Garriga,Eduard Vieta,Allan H Young,Stephen M. Lawrie,Heather C. Whalley,Diego Hidalgo-Mazzei,Antonio Vergari |
発行日 | 2023-11-07 18:59:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google