要約
大規模言語モデル (LLM) は最近、医療分野を含む幅広いタスクやアプリケーションに及ぶ優れた機能を実証しました。
GPT-4 のようなモデルは、医療質問応答には優れていますが、実際の臨床現場で複雑なタスクを処理する場合、解釈可能性が欠如しているという課題に直面する可能性があります。
そこで、人間の医師と比較してLLMの推論能力と解釈可能性を評価することを目的として、臨床ノート用の診断推論データセット(DiReCT)を導入します。
これには 511 の臨床ノートが含まれており、それぞれに医師が細心の注意を払って注釈が付けられており、臨床ノートの観察から最終診断に至るまでの診断推論プロセスが詳しく説明されています。
さらに、既存の LLM のトレーニング データではカバーされていない可能性がある、推論に不可欠な知識を提供する診断ナレッジ グラフが提供されます。
DiReCT での主要な LLM の評価では、彼らの推論能力と人間の医師の推論能力の間に大きなギャップがあることが明らかになり、現実世界の臨床シナリオで効果的に推論できるモデルの重要な必要性が浮き彫りになっています。
要約(オリジナル)
Large language models (LLMs) have recently showcased remarkable capabilities, spanning a wide range of tasks and applications, including those in the medical domain. Models like GPT-4 excel in medical question answering but may face challenges in the lack of interpretability when handling complex tasks in real clinical settings. We thus introduce the diagnostic reasoning dataset for clinical notes (DiReCT), aiming at evaluating the reasoning ability and interpretability of LLMs compared to human doctors. It contains 511 clinical notes, each meticulously annotated by physicians, detailing the diagnostic reasoning process from observations in a clinical note to the final diagnosis. Additionally, a diagnostic knowledge graph is provided to offer essential knowledge for reasoning, which may not be covered in the training data of existing LLMs. Evaluations of leading LLMs on DiReCT bring out a significant gap between their reasoning ability and that of human doctors, highlighting the critical need for models that can reason effectively in real-world clinical scenarios.
arxiv情報
著者 | Bowen Wang,Jiuyang Chang,Yiming Qian,Guoxin Chen,Junhao Chen,Zhouqiang Jiang,Jiahao Zhang,Yuta Nakashima,Hajime Nagahara |
発行日 | 2025-01-13 07:13:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google