Can LLMs like GPT-4 outperform traditional AI tools in dementia diagnosis? Maybe, but not today

要約

近年の研究により、大規模言語モデル(LLM)、特にGPT-4は、一般的な自然言語処理(NLP)タスクにおいて顕著な能力を持つだけでなく、様々な専門的・学術的ベンチマークにおいて人間レベルの性能を発揮することが明らかになっています。しかし、GPT-4が実用的なアプリケーションで直接使用でき、専門的な領域で従来の人工知能(AI)ツールを置き換えることができるかどうかは、さらなる実験的検証が必要です。本論文では、GPT-4のようなLLMが認知症診断において従来のAIツールを凌駕する可能性を探ります。GPT-4と従来のAIツールの包括的な比較を行い、臨床設定における診断精度を検証する。2つの実際の臨床データセットを用いた実験結果から、GPT-4のようなLLMは、認知症診断における将来の進歩の可能性を示すものの、現状では従来のAIツールの性能を上回ることはないことがわかった。また、GPT-4の解釈可能性と忠実性は、実際の医師との比較によって評価される。現状でのGPT-4の限界を議論し、認知症診断におけるGPT-4を強化するための将来の研究方向を提案する。

要約(オリジナル)

Recent investigations show that large language models (LLMs), specifically GPT-4, not only have remarkable capabilities in common Natural Language Processing (NLP) tasks but also exhibit human-level performance on various professional and academic benchmarks. However, whether GPT-4 can be directly used in practical applications and replace traditional artificial intelligence (AI) tools in specialized domains requires further experimental validation. In this paper, we explore the potential of LLMs such as GPT-4 to outperform traditional AI tools in dementia diagnosis. Comprehensive comparisons between GPT-4 and traditional AI tools are conducted to examine their diagnostic accuracy in a clinical setting. Experimental results on two real clinical datasets show that, although LLMs like GPT-4 demonstrate potential for future advancements in dementia diagnosis, they currently do not surpass the performance of traditional AI tools. The interpretability and faithfulness of GPT-4 are also evaluated by comparison with real doctors. We discuss the limitations of GPT-4 in its current state and propose future research directions to enhance GPT-4 in dementia diagnosis.

arxiv情報

著者 Zhuo Wang,Rongzhen Li,Bowen Dong,Jie Wang,Xiuxing Li,Ning Liu,Chenhui Mao,Wei Zhang,Liling Dong,Jing Gao,Jianyong Wang
発行日 2023-06-02 12:47:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク