要約
ヘルスケアにおける大規模言語モデル (LLM) のための包括的な定性評価フレームワークで、必要とされる従来の精度と定量的指標を超えて拡張されます。
私たちは、LLM の評価に重要な 5 つの側面、安全性、コンセンサス、客観性、再現性、説明可能性 (S.C.O.R.E.) を提案します。
S.C.O.R.E.を推奨します。
これは、ヘルスケアおよび臨床アプリケーションにとって安全で、信頼性があり、倫理的である将来の LLM ベースのモデルの評価フレームワークの基礎を形成する可能性があります。
要約(オリジナル)
A comprehensive qualitative evaluation framework for large language models (LLM) in healthcare that expands beyond traditional accuracy and quantitative metrics needed. We propose 5 key aspects for evaluation of LLMs: Safety, Consensus, Objectivity, Reproducibility and Explainability (S.C.O.R.E.). We suggest that S.C.O.R.E. may form the basis for an evaluation framework for future LLM-based models that are safe, reliable, trustworthy, and ethical for healthcare and clinical applications.
arxiv情報
著者 | Ting Fang Tan,Kabilan Elangovan,Jasmine Ong,Nigam Shah,Joseph Sung,Tien Yin Wong,Lan Xue,Nan Liu,Haibo Wang,Chang Fu Kuo,Simon Chesterman,Zee Kin Yeong,Daniel SW Ting |
発行日 | 2024-07-10 13:45:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google