Evaluating Machine Learning Models against Clinical Protocols for Enhanced Interpretability and Continuity of Care

要約

臨床現場では、意思決定は、ルールとして形式化された確立されたプロトコルに大きく依存しています。
同時に、臨床データに基づいてトレーニングされた機械学習 (ML) モデルは、医療上の意思決定プロセスへの統合を目指しています。
しかし、ML アプリケーションの数は増加しているにもかかわらず、臨床現場への導入は依然として限られています。
ケアの一貫性と継続性の概念に関連して、2 つの重大な懸念が生じます。(a) 精度 – ML モデルは、より正確ではあるものの、プロトコルの適用では発生しなかったエラーを引き起こす可能性があります。
(b) 解釈可能性 – ブラック ボックスとして動作する ML モデルは、確立された臨床知識と矛盾する関係に基づいて予測を行う可能性があります。
これに関連して、文献では、精度と解釈可能性を向上させるためにドメイン知識を統合した ML モデルを使用することが提案されています。
しかし、これらの課題に対処する際に、ML モデルと臨床ルールを比較するための適切な指標が不足しています。
したがって、この記事では、確立されたプロトコルに関して ML モデルの精度を評価するための指標を最初に提案します。
次に、臨床ルールベースのシステムと ML モデルから抽出されたルールの間の説明の類似性を比較することを目的として、2 つのルール セットによって提供される説明の距離を測定するアプローチを提案します。
このアプローチは、データのみに基づいて 1 つと臨床プロトコルを統合する 2 つのニューラル ネットワークの 2 つのニューラル ネットワークをトレーニングすることにより、ピマ インディアン糖尿病データセットで検証されます。
私たちの調査結果は、統合された ML モデルが完全なデータ駆動型モデルと同等のパフォーマンスを達成しながら、臨床プロトコルと比べて優れた精度を示し、ケアの継続性を強化することを示しています。
さらに、私たちの統合モデルは、データ駆動型モデルと比較して、臨床プロトコルにより密接に一致する予測の説明を提供することを示します。

要約(オリジナル)

In clinical practice, decision-making relies heavily on established protocols, often formalised as rules. Concurrently, Machine Learning (ML) models, trained on clinical data, aspire to integrate into medical decision-making processes. However, despite the growing number of ML applications, their adoption into clinical practice remains limited. Two critical concerns arise, relevant to the notions of consistency and continuity of care: (a) accuracy – the ML model, albeit more accurate, might introduce errors that would not have occurred by applying the protocol; (b) interpretability – ML models operating as black boxes might make predictions based on relationships that contradict established clinical knowledge. In this context, the literature suggests using ML models integrating domain knowledge for improved accuracy and interpretability. However, there is a lack of appropriate metrics for comparing ML models with clinical rules in addressing these challenges. Accordingly, in this article, we first propose metrics to assess the accuracy of ML models with respect to the established protocol. Secondly, we propose an approach to measure the distance of explanations provided by two rule sets, with the goal of comparing the explanation similarity between clinical rule-based systems and rules extracted from ML models. The approach is validated on the Pima Indians Diabetes dataset by training two neural networks – one exclusively on data, and the other integrating a clinical protocol. Our findings demonstrate that the integrated ML model achieves comparable performance to that of a fully data-driven model while exhibiting superior accuracy relative to the clinical protocol, ensuring enhanced continuity of care. Furthermore, we show that our integrated model provides explanations for predictions that align more closely with the clinical protocol compared to the data-driven model.

arxiv情報

著者 Christel Sirocchi,Muhammad Suffian,Federico Sabbatini,Alessandro Bogliolo,Sara Montagna
発行日 2024-11-05 13:50:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク