A Systematic Evaluation of LLM Strategies for Mental Health Text Analysis: Fine-tuning vs. Prompt Engineering vs. RAG

要約

この研究では、大規模な言語モデル(LLMS)を使用したメンタルヘルステキストの分析のための3つのアプローチの体系的な比較を示しています:迅速なエンジニアリング、検索拡張生成(RAG)、および微調整。
Llama 3を使用して、2つのデータセットにわたる感情分類とメンタルヘルスの検出タスクに関するこれらのアプローチを評価します。
微調整は最高の精度(感情分類で91%、メンタルヘルスの状態で80%)を達成しますが、かなりの計算リソースと大規模なトレーニングセットが必要です。一方、迅速なエンジニアリングとRAGは、パフォーマンスが適度なパフォーマンス(40〜68%の精度)でより柔軟な展開を提供します。
私たちの調査結果は、精度、計算要件、展開の柔軟性のトレードオフを強調し、メンタルヘルスアプリケーションにLLMベースのソリューションを実装するための実用的な洞察を提供します。

要約(オリジナル)

This study presents a systematic comparison of three approaches for the analysis of mental health text using large language models (LLMs): prompt engineering, retrieval augmented generation (RAG), and fine-tuning. Using LLaMA 3, we evaluate these approaches on emotion classification and mental health condition detection tasks across two datasets. Fine-tuning achieves the highest accuracy (91% for emotion classification, 80% for mental health conditions) but requires substantial computational resources and large training sets, while prompt engineering and RAG offer more flexible deployment with moderate performance (40-68% accuracy). Our findings provide practical insights for implementing LLM-based solutions in mental health applications, highlighting the trade-offs between accuracy, computational requirements, and deployment flexibility.

arxiv情報

著者 Arshia Kermani,Veronica Perez-Rosas,Vangelis Metsis
発行日 2025-03-31 16:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク