Zero-Shot ATC Coding with Large Language Models for Clinical Assessments

要約

Anatomical Therapeutic Chemicals (ATC) コードを処方箋記録に手動で割り当てることは、Ontario Health および InterRAI Canada での医療研究と運営における重大なボトルネックとなっており、専門家の多大な時間と労力を必要とします。
データのプライバシーを維持しながらこのプロセスを自動化するために、ローカルに展開可能な大規模言語モデル (LLM) を使用した実用的なアプローチを開発します。
自動国際疾病分類 (ICD) コーディングの最近の進歩に触発された私たちの方法は、ATC コーディングを階層型情報抽出タスクとして組み立て、LLM を ATC オントロジーのレベルごとにガイドします。
当社では、精度の上限として GPT-4o を使用してアプローチを評価し、プライバシーに配慮した展開に適したオープンソースの Llama モデルの開発に焦点を当てています。
カナダ保健省の医薬品データ、RABBITS ベンチマーク、およびオンタリオ州保健局からの実際の臨床ノートを対象としたテストにより、当社のメソッドは GPT-4o で 78%、Llama 3.1 70B で 60% の完全一致精度を達成しました。
私たちは医薬品の定義を通じて知識の基礎を調査し、精度がわずかに向上していることを発見しました。
さらに、微調整された Llama 3.1 8B がゼロショット Llama 3.1 70B の精度と一致することを示し、効果的な ATC コーディングが小規模なモデルでも実現可能であることを示唆しています。
私たちの結果は、プライバシーに敏感な医療環境における自動 ATC コーディングの実現可能性を実証し、将来の展開のための基盤を提供します。

要約(オリジナル)

Manual assignment of Anatomical Therapeutic Chemical (ATC) codes to prescription records is a significant bottleneck in healthcare research and operations at Ontario Health and InterRAI Canada, requiring extensive expert time and effort. To automate this process while maintaining data privacy, we develop a practical approach using locally deployable large language models (LLMs). Inspired by recent advances in automatic International Classification of Diseases (ICD) coding, our method frames ATC coding as a hierarchical information extraction task, guiding LLMs through the ATC ontology level by level. We evaluate our approach using GPT-4o as an accuracy ceiling and focus development on open-source Llama models suitable for privacy-sensitive deployment. Testing across Health Canada drug product data, the RABBITS benchmark, and real clinical notes from Ontario Health, our method achieves 78% exact match accuracy with GPT-4o and 60% with Llama 3.1 70B. We investigate knowledge grounding through drug definitions, finding modest improvements in accuracy. Further, we show that fine-tuned Llama 3.1 8B matches zero-shot Llama 3.1 70B accuracy, suggesting that effective ATC coding is feasible with smaller models. Our results demonstrate the feasibility of automatic ATC coding in privacy-sensitive healthcare environments, providing a foundation for future deployments.

arxiv情報

著者 Zijian Chen,John-Michael Gamble,Micaela Jantzi,John P. Hirdes,Jimmy Lin
発行日 2024-12-10 18:43:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク