A Proposed S.C.O.R.E. Evaluation Framework for Large Language Models : Safety, Consensus, Objectivity, Reproducibility and Explainability

要約

ヘルスケアにおける大規模言語モデル (LLM) のための包括的な定性評価フレームワークで、必要とされる従来の精度と定量的指標を超えて拡張されます。
私たちは、LLM の評価に重要な 5 つの側面、安全性、コンセンサス、客観性、再現性、説明可能性 (S.C.O.R.E.) を提案します。
S.C.O.R.E.を推奨します。
これは、ヘルスケアおよび臨床アプリケーションにとって安全で、信頼性があり、倫理的である将来の LLM ベースのモデルの評価フレームワークの基礎を形成する可能性があります。

要約(オリジナル)

A comprehensive qualitative evaluation framework for large language models (LLM) in healthcare that expands beyond traditional accuracy and quantitative metrics needed. We propose 5 key aspects for evaluation of LLMs: Safety, Consensus, Objectivity, Reproducibility and Explainability (S.C.O.R.E.). We suggest that S.C.O.R.E. may form the basis for an evaluation framework for future LLM-based models that are safe, reliable, trustworthy, and ethical for healthcare and clinical applications.

arxiv情報

著者 Ting Fang Tan,Kabilan Elangovan,Jasmine Ong,Nigam Shah,Joseph Sung,Tien Yin Wong,Lan Xue,Nan Liu,Haibo Wang,Chang Fu Kuo,Simon Chesterman,Zee Kin Yeong,Daniel SW Ting
発行日 2024-07-10 13:45:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク