Text2MDT: Extracting Medical Decision Trees from Medical Texts

要約

医療意思決定支援システムを構築するためには、医療意思決定ツリー(MDT)としてモデル化できる医療意思決定プロセスの知識が不可欠である。しかし、現在のMDT構築手法は、時間と手間のかかる手動アノテーションに大きく依存している。本研究では、医療ガイドラインや教科書などの医療テキストからMDTを自動抽出するための新しいタスクText2MDTを提案する。MDTの形式を正規化し、医学専門家の参加を得て、中国語の注釈付きText-to-MDTデータセットを作成する。(a)GPTスタイルの大規模言語モデル(LLM)命令チューニングにのみ依存し、すべてのノード情報とツリー構造を生成するエンドツーエンドフレームワーク。(b) Text2MDTタスクを3つのサブタスクに分解するパイプラインフレームワーク。Text2MDTデータセットでの実験により、以下のことが実証された:(a)LLM(7B以上のパラメータ)に基づくend-to-end法は有望な結果を示し、パイプライン法を凌駕する。(b) Chain of Thought (COT) prompting method \cite{Wei2022ChainOT} は、Text2MDT テストセットで微調整された LLM の性能を向上させることができる。(c)エンコーダーベースの事前学習モデルに基づく軽量パイプライン法は、モデルの複雑さが2桁小さいLLMと同等の性能を発揮できる。私たちのText2MDTデータセットは˶‾url{https://tianchi.aliyun.com/dataset/95414}でオープンソース化されており、ソースコードは˶‾url{https://github.com/michael-wzhu/text2dt}でオープンソース化されています。

要約(オリジナル)

Knowledge of the medical decision process, which can be modeled as medical decision trees (MDTs), is critical to build clinical decision support systems. However, the current MDT construction methods rely heavily on time-consuming and laborious manual annotation. In this work, we propose a novel task, Text2MDT, to explore the automatic extraction of MDTs from medical texts such as medical guidelines and textbooks. We normalize the form of the MDT and create an annotated Text-to-MDT dataset in Chinese with the participation of medical experts. We investigate two different methods for the Text2MDT tasks: (a) an end-to-end framework which only relies on a GPT style large language models (LLM) instruction tuning to generate all the node information and tree structures. (b) The pipeline framework which decomposes the Text2MDT task to three subtasks. Experiments on our Text2MDT dataset demonstrate that: (a) the end-to-end method basd on LLMs (7B parameters or larger) show promising results, and successfully outperform the pipeline methods. (b) The chain-of-thought (COT) prompting method \cite{Wei2022ChainOT} can improve the performance of the fine-tuned LLMs on the Text2MDT test set. (c) the lightweight pipelined method based on encoder-based pretrained models can perform comparably with LLMs with model complexity two magnititudes smaller. Our Text2MDT dataset is open-sourced at \url{https://tianchi.aliyun.com/dataset/95414}, and the source codes are open-sourced at \url{https://github.com/michael-wzhu/text2dt}.

arxiv情報

著者 Wei Zhu,Wenfeng Li,Xing Tian,Pengfei Wang,Xiaoling Wang,Jin Chen,Yuanbin Wu,Yuan Ni,Guotong Xie
発行日 2024-01-04 02:33:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク