Interpretable Medical Diagnostics with Structured Data Extraction by Large Language Models

要約

表形式のデータは、特に医療診断レポートなどのテキストに隠されていることがよくあります。
表形式のデータを操作するように設計された従来の機械学習 (ML) モデルは、そのような形式の情報を効果的に処理できません。
一方、テキストタスクに優れた大規模言語モデル (LLM) は、おそらく表形式データをモデリングするための最適なツールではありません。
したがって、我々は、テキスト形式の医療レポートから構造化された表形式のデータを抽出するための、TEMED-LLM と呼ばれる、新規でシンプルかつ効果的な方法論を提案します。
LLM の推論機能を活用する TEMED-LLM は、従来の抽出手法を超えて、テキスト内で名前が明示的に言及されていない場合でも、表形式の特徴を正確に推測します。
これは、ドメイン固有の推論ガイドラインと、提案されたデータ検証および推論修正フィードバック ループを組み合わせることで実現されます。
抽出および検証されたデータに対してデシジョン ツリーやロジスティック回帰などの解釈可能な ML モデルを適用することで、エンドツーエンドの解釈可能な予測が得られます。
私たちは、医療診断において私たちのアプローチが最先端のテキスト分類モデルよりも大幅に優れていることを実証しました。
TEMED-LLM は、その予測パフォーマンス、シンプルさ、解釈可能性を考慮すると、LLM を活用して医療アプリケーションにおける ML モデルのパフォーマンスと信頼性を向上できる可能性を強調しています。

要約(オリジナル)

Tabular data is often hidden in text, particularly in medical diagnostic reports. Traditional machine learning (ML) models designed to work with tabular data, cannot effectively process information in such form. On the other hand, large language models (LLMs) which excel at textual tasks, are probably not the best tool for modeling tabular data. Therefore, we propose a novel, simple, and effective methodology for extracting structured tabular data from textual medical reports, called TEMED-LLM. Drawing upon the reasoning capabilities of LLMs, TEMED-LLM goes beyond traditional extraction techniques, accurately inferring tabular features, even when their names are not explicitly mentioned in the text. This is achieved by combining domain-specific reasoning guidelines with a proposed data validation and reasoning correction feedback loop. By applying interpretable ML models such as decision trees and logistic regression over the extracted and validated data, we obtain end-to-end interpretable predictions. We demonstrate that our approach significantly outperforms state-of-the-art text classification models in medical diagnostics. Given its predictive performance, simplicity, and interpretability, TEMED-LLM underscores the potential of leveraging LLMs to improve the performance and trustworthiness of ML models in medical applications.

arxiv情報

著者 Aleksa Bisercic,Mladen Nikolic,Mihaela van der Schaar,Boris Delibasic,Pietro Lio,Andrija Petrovic
発行日 2023-06-08 09:12:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク