Utilizing ChatGPT Generated Data to Retrieve Depression Symptoms from Social Media

要約

この研究では、うつ病の症状の検索に関する eRisk Lab タスクにおける BLUE チームの貢献を紹介します。
このタスクは、BDI-II アンケートからうつ病の症状を伝える Reddit ソーシャル メディアの文章を取得し、ランク付けすることで構成されています。
LLM によって提供される合成データは、データを増強し下流モデルを微調整するための信頼できる方法であることが証明されているため、BDI-II アンケートの症状ごとに ChatGPT を使用して合成データを生成することを選択しました。
私たちは、生成されたデータに、各質問に対する BDI-II の回答よりも豊かさと意味の多様性が含まれるように、同時に、Reddit で経験を共有するより親密な方法に特有の感情的および逸話的な経験を含むようにプロンプ​​トを設計しました。
意味検索を実行し、コサイン類似度によって文の BDI-II 症状との関連性をランク付けします。
ソーシャル メディアの投稿、BDI-II、MentalRoBERTa、および MPNet のバリアントのオリジナルおよび生成された応答を埋め込むために、2 つの最先端のトランスフォーマー ベースのモデルを使用しました。
私たちの結果は、意味検索用に設計されたモデルを文の埋め込みに使用するアプローチが、メンタルヘルス データで事前にトレーニングされたモデルよりも優れていることを示しています。
さらに、生成された合成データはこのタスクには特異すぎることが判明し、単に BDI-II 応答に依存するアプローチが最高のパフォーマンスを発揮しました。

要約(オリジナル)

In this work, we present the contribution of the BLUE team in the eRisk Lab task on searching for symptoms of depression. The task consists of retrieving and ranking Reddit social media sentences that convey symptoms of depression from the BDI-II questionnaire. Given that synthetic data provided by LLMs have been proven to be a reliable method for augmenting data and fine-tuning downstream models, we chose to generate synthetic data using ChatGPT for each of the symptoms of the BDI-II questionnaire. We designed a prompt such that the generated data contains more richness and semantic diversity than the BDI-II responses for each question and, at the same time, contains emotional and anecdotal experiences that are specific to the more intimate way of sharing experiences on Reddit. We perform semantic search and rank the sentences’ relevance to the BDI-II symptoms by cosine similarity. We used two state-of-the-art transformer-based models for embedding the social media posts, the original and generated responses of the BDI-II, MentalRoBERTa and a variant of MPNet. Our results show that an approach using for sentence embeddings a model that is designed for semantic search outperforms the model pre-trained on mental health data. Furthermore, the generated synthetic data were proved too specific for this task, the approach simply relying on the BDI-II responses had the best performance.

arxiv情報

著者 Ana-Maria Bucur
発行日 2023-07-05 14:15:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク