Exploring the Task-agnostic Trait of Self-supervised Learning in the Context of Detecting Mental Disorders

要約

自己教師あり学習 (SSL) は、さまざまなドメインにわたってタスクに依存しない表現を生成するために研究されてきました。
しかし、複数の精神障害を発見するためのこのような調査は行われていない。
課題非認識表現の存在の背後にある理論的根拠は、複数の精神障害の間で重複する症状にあります。
その結果、メンタルヘルス評価のために収集された行動データには、複数の障害に関連する属性が混在している可能性があります。
これを動機として、この研究では、対話型セッション中に収集された音声データとビデオ データを使用して、大うつ病性障害 (MDD) と心的外傷後ストレス障害 (PTSD) を検出するというコンテキストで、SSL を通じて導出されたタスク非依存表現を調査します。
この研究では、複数の固定ターゲットまたはマスクされたフレームを予測することによってトレーニングされた SSL モデルを使用します。
MDD と PTSD を検出するために生成された表現をより効率的にするために、固定ターゲットのリストを提案します。
さらに、固定ターゲットを予測する SSL エンコーダのハイパーパラメータを変更して、さまざまな時間的コンテキストをキャプチャするグローバル表現を生成します。
これらの革新技術は両方とも、精神障害と考えられるものの検出性能が向上し、課題にとらわれない特性を示すことが注目されています。
マスクされたフレームを予測する SSL モデルのコンテキストでは、生成されたグローバル表現がタスクに依存しない特性を示すことも注目されています。

要約(オリジナル)

Self-supervised learning (SSL) has been investigated to generate task-agnostic representations across various domains. However, such investigation has not been conducted for detecting multiple mental disorders. The rationale behind the existence of a task-agnostic representation lies in the overlapping symptoms among multiple mental disorders. Consequently, the behavioural data collected for mental health assessment may carry a mixed bag of attributes related to multiple disorders. Motivated by that, in this study, we explore a task-agnostic representation derived through SSL in the context of detecting major depressive disorder (MDD) and post-traumatic stress disorder (PTSD) using audio and video data collected during interactive sessions. This study employs SSL models trained by predicting multiple fixed targets or masked frames. We propose a list of fixed targets to make the generated representation more efficient for detecting MDD and PTSD. Furthermore, we modify the hyper-parameters of the SSL encoder predicting fixed targets to generate global representations that capture varying temporal contexts. Both these innovations are noted to yield improved detection performances for considered mental disorders and exhibit task-agnostic traits. In the context of the SSL model predicting masked frames, the generated global representations are also noted to exhibit task-agnostic traits.

arxiv情報

著者 Rohan Kumar Gupta,Rohit Sinha
発行日 2024-03-22 12:46:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.SP パーマリンク