DepreSym: A Depression Symptom Annotated Corpus and the Role of LLMs as Assessors of Psychological Markers

要約

うつ病を検出するための計算手法は、インターネット ユーザーが投稿したオンライン出版物からうつ病の痕跡を掘り出すことを目的としています。
ただし、既存のコレクションでトレーニングされたソリューションは、一般化と解釈可能性が限られています。
これらの問題に取り組むために、最近の研究では、うつ病の症状を特定することでより堅牢なモデルを作成できることが示されています。
eRisk イニシアチブはこの分野の研究を促進しており、最近、うつ病の症状に関連する文章を見つけるための検索方法の開発に焦点を当てた新しいランキング タスクを提案しました。
この検索課題は、臨床現場で広く使用されているアンケートである Beck Depression Inventory-II (BDI-II) で指定された症状に基づいています。
参加者システムの結果に基づいて、21 の BDI-II 症状との関連性に従って注釈が付けられた 21,580 の文で構成される DepreSym データセットを提示します。
ラベル付けされた文は、さまざまなランキング手法のプールから取得され、最終的なデータセットは、臨床症状などのうつ病マーカーを組み込んだモデルの開発を進めるための貴重なリソースとして機能します。
この関連性アノテーションの複雑な性質のため、私たちは 3 人の専門評価者 (専門心理学者を含む) によって実行される堅牢な評価方法を設計しました。
さらに、ここでは、この複雑なタスクの潜在的な評価者として、最近の大規模言語モデル (ChatGPT および GPT4) を採用する可能性を検討します。
私たちはそれらのパフォーマンスの包括的な検査を行い、その主な制限を特定し、ヒューマン・アノテーターの補完または代替としての役割を分析します。

要約(オリジナル)

Computational methods for depression detection aim to mine traces of depression from online publications posted by Internet users. However, solutions trained on existing collections exhibit limited generalisation and interpretability. To tackle these issues, recent studies have shown that identifying depressive symptoms can lead to more robust models. The eRisk initiative fosters research on this area and has recently proposed a new ranking task focused on developing search methods to find sentences related to depressive symptoms. This search challenge relies on the symptoms specified by the Beck Depression Inventory-II (BDI-II), a questionnaire widely used in clinical practice. Based on the participant systems’ results, we present the DepreSym dataset, consisting of 21580 sentences annotated according to their relevance to the 21 BDI-II symptoms. The labelled sentences come from a pool of diverse ranking methods, and the final dataset serves as a valuable resource for advancing the development of models that incorporate depressive markers such as clinical symptoms. Due to the complex nature of this relevance annotation, we designed a robust assessment methodology carried out by three expert assessors (including an expert psychologist). Additionally, we explore here the feasibility of employing recent Large Language Models (ChatGPT and GPT4) as potential assessors in this complex task. We undertake a comprehensive examination of their performance, determine their main limitations and analyze their role as a complement or replacement for human annotators.

arxiv情報

著者 Anxo Pérez,Marcos Fernández-Pichel,Javier Parapar,David E. Losada
発行日 2023-08-21 14:44:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク