要約
大規模な言語モデル(LLM)は、スケーラブルなメンタルヘルスサポートを提供することに有望を示していますが、カウンセリング能力を評価することは、有効性と安全性の両方を確保するために依然として重要です。
既存の評価は、知識テストに焦点を当てた静的評価、ユーザーエクスペリエンスを中心とする単一の視点、および実用的なフィードバックを欠くオープンループフレームワークによって制限されます。
これらの問題に対処するために、LLMベースのカウンセラーの包括的な評価と最適化のためのインタラクティブなフレームワークである{\ psi} -Arenaを提案します。3つの重要な特徴を特徴としています。
(3)診断フィードバックを使用してLLMカウンセラーを繰り返し改善する閉ループ最適化。
8つの最先端のLLMにわたる実験では、実際のシナリオと評価の観点から、さまざまな現実世界のシナリオと評価の観点から大きなパフォーマンスの変動が示されています。
さらに、反射ベースの最適化により、カウンセリングのパフォーマンスが最大141%改善されます。
Psychoarenaが、メンタルヘルスケアで信頼できる人間に並んだLLMアプリケーションを進めるための基礎的なリソースを提供することを願っています。
要約(オリジナル)
Large language models (LLMs) have shown promise in providing scalable mental health support, while evaluating their counseling capability remains crucial to ensure both efficacy and safety. Existing evaluations are limited by the static assessment that focuses on knowledge tests, the single perspective that centers on user experience, and the open-loop framework that lacks actionable feedback. To address these issues, we propose {\Psi}-Arena, an interactive framework for comprehensive assessment and optimization of LLM-based counselors, featuring three key characteristics: (1) Realistic arena interactions that simulate real-world counseling through multi-stage dialogues with psychologically profiled NPC clients, (2) Tripartite evaluation that integrates assessments from the client, counselor, and supervisor perspectives, and (3) Closed-loop optimization that iteratively improves LLM counselors using diagnostic feedback. Experiments across eight state-of-the-art LLMs show significant performance variations in different real-world scenarios and evaluation perspectives. Moreover, reflection-based optimization results in up to a 141% improvement in counseling performance. We hope PsychoArena provides a foundational resource for advancing reliable and human-aligned LLM applications in mental healthcare.
arxiv情報
著者 | Shijing Zhu,Zhuang Chen,Guanqun Bi,Binghang Li,Yaxi Deng,Dazhen Wan,Libiao Peng,Xiyao Xiao,Rongsheng Zhang,Tangjie Lv,Zhipeng Hu,FangFang Li,Minlie Huang |
発行日 | 2025-05-06 08:22:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google