要約
乳がんと頸がんについての効果的なコミュニケーションは、癌の予防、スクリーニング、治療に関する一般の理解に大きなギャップがあり、診断の遅延や不十分な治療につながる可能性があるため、持続的な健康課題のままです。
この研究では、患者の理解をサポートするために、正確で安全でアクセスしやすい癌関連情報を生成する際に、大規模な言語モデル(LLM)の能力と制限を評価します。
言語の品質、安全性と信頼性、コミュニケーションのアクセシビリティと感情を介した混合メソッド評価フレームワークを使用して、5つの汎用と3つの医療LLMを評価しました。
私たちのアプローチは、ウェルチのANOVA、Games-Howell、およびHedges ‘Gを使用した定量的指標、定性的専門家の評価、および統計分析を利用しました。
我々の結果は、一般的なLLMがより高い言語の品質と感情の出力を生成し、医療LLMがコミュニケーションのアクセシビリティを高めることを示しています。
ただし、医療LLMは、より高いレベルの潜在的な害、毒性、バイアスを示す傾向があり、安全性と信頼性におけるパフォーマンスを低下させる傾向があります。
私たちの調査結果は、健康コミュニケーションにおけるドメイン固有の知識と安全性の間の二重性を示しています。
結果は、特に害とバイアスを緩和し、安全性と感情を改善する際に、ターゲットを絞った改善を伴う意図的なモデル設計の必要性を強調しています。
この研究は、がんコミュニケーションのためのLLMの包括的な評価を提供し、AIが生成された健康含有量を改善し、正確で安全でアクセス可能なデジタルヘルスツールの将来の開発を通知するための重要な洞察を提供します。
要約(オリジナル)
Effective communication about breast and cervical cancers remains a persistent health challenge, with significant gaps in public understanding of cancer prevention, screening, and treatment, potentially leading to delayed diagnoses and inadequate treatments. This study evaluates the capabilities and limitations of Large Language Models (LLMs) in generating accurate, safe, and accessible cancer-related information to support patient understanding. We evaluated five general-purpose and three medical LLMs using a mixed-methods evaluation framework across linguistic quality, safety and trustworthiness, and communication accessibility and affectiveness. Our approach utilized quantitative metrics, qualitative expert ratings, and statistical analysis using Welch’s ANOVA, Games-Howell, and Hedges’ g. Our results show that general-purpose LLMs produced outputs of higher linguistic quality and affectiveness, while medical LLMs demonstrate greater communication accessibility. However, medical LLMs tend to exhibit higher levels of potential harm, toxicity, and bias, reducing their performance in safety and trustworthiness. Our findings indicate a duality between domain-specific knowledge and safety in health communications. The results highlight the need for intentional model design with targeted improvements, particularly in mitigating harm and bias, and improving safety and affectiveness. This study provides a comprehensive evaluation of LLMs for cancer communication, offering critical insights for improving AI-generated health content and informing future development of accurate, safe, and accessible digital health tools.
arxiv情報
著者 | Agnik Saha,Victoria Churchill,Anny D. Rodriguez,Ugur Kursuncu,Muhammed Y. Idris |
発行日 | 2025-05-15 16:23:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google