CHiLL: Zero-shot Custom Interpretable Feature Extraction from Clinical Notes with Large Language Models

要約

大規模言語モデル (LLM) は、NLP で急速かつ劇的な進歩をもたらし、現在、新しいタスクに対して強力な少数およびゼロショット機能を提供し、注釈の必要性を減らしています。
これは、監督が不十分で費用がかかることが多い医療分野にとって特にエキサイティングです。
同時に、モデルの予測が盲目的に信頼できるほど正確であることはめったにありません。
したがって、臨床医は、不透明な LLM よりも「解釈可能な」分類子を好む傾向があります。
たとえば、リスク予測ツールは、多くの場合、EHR から苦労して抽出する必要がある手動で作成された予測因子に対して定義された線形モデルです。
LLMを使用して、専門家が作成したクエリを使用したゼロショット機能抽出により、線形モデルの高レベル機能の自然言語仕様を許可するCHiLL(Crafting High-Level Latents)を提案します。
このアプローチは、医師がドメインの専門知識を使用して、興味のあるダウンストリーム タスクに対して臨床的に意味のある機能を作成できるようにする可能性を秘めています。生の EHR からこれらを手動で抽出する必要はありません (現在よく行われているように)。
私たちは現実世界のリスク予測タスクに動機付けられていますが、再現可能なプロキシとして、MIMIC-III および MIMIC-CXR データと標準的な予測タスク (30 日間の再入院など) を使用してアプローチを評価します。
自動的に抽出された機能を使用する線形モデルは、参照機能を使用するモデルと同等のパフォーマンスを発揮し、「Bag-of-Words」機能を使用する線形モデルよりも優れた解釈可能性を提供することがわかりました。
学習した特徴の重みが臨床上の期待とうまく一致することを確認します。

要約(オリジナル)

Large Language Models (LLMs) have yielded fast and dramatic progress in NLP, and now offer strong few- and zero-shot capabilities on new tasks, reducing the need for annotation. This is especially exciting for the medical domain, in which supervision is often scant and expensive. At the same time, model predictions are rarely so accurate that they can be trusted blindly. Clinicians therefore tend to favor ‘interpretable’ classifiers over opaque LLMs. For example, risk prediction tools are often linear models defined over manually crafted predictors that must be laboriously extracted from EHRs. We propose CHiLL (Crafting High-Level Latents), which uses LLMs to permit natural language specification of high-level features for linear models via zero-shot feature extraction using expert-composed queries. This approach has the promise to empower physicians to use their domain expertise to craft features which are clinically meaningful for a downstream task of interest, without having to manually extract these from raw EHR (as often done now). We are motivated by a real-world risk prediction task, but as a reproducible proxy, we use MIMIC-III and MIMIC-CXR data and standard predictive tasks (e.g., 30-day readmission) to evaluate our approach. We find that linear models using automatically extracted features are comparably performant to models using reference features, and provide greater interpretability than linear models using ‘Bag-of-Words’ features. We verify that learned feature weights align well with clinical expectations.

arxiv情報

著者 Denis Jered McInerney,Geoffrey Young,Jan-Willem van de Meent,Byron C. Wallace
発行日 2023-02-23 21:23:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク