Multi-Task Training with In-Domain Language Models for Diagnostic Reasoning

要約

生成人工知能 (AI) は、臨床診断の意思決定サポートを強化し、医療過誤の主因である診断過誤を減らすための有望な方向性です。
臨床 AI システムの開発を促進するために、診断推論ベンチマーク (DR.BENCH) が包括的な生成 AI フレームワークとして導入されました。このフレームワークは、臨床推論の主要なコンポーネントを表す 6 つのタスクで構成されています。
DR.BENCH の問題要約タスクに焦点を当てた、ドメイン内言語モデルとドメイン外言語モデル、およびマルチタスク トレーニングとシングルタスク トレーニングの比較分析を示します (Gao et al., 2023)。
私たちは、マルチタスクの臨床的にトレーニングされた言語モデルが、一般的なドメインの対応する言語モデルを大幅に上回り、ROUGE-L スコア 28.55 という新たな最先端のパフォーマンスを確立することを実証しました。
この研究は、臨床診断推論タスクを最適化するための領域固有のトレーニングの価値を強調しています。

要約(オリジナル)

Generative artificial intelligence (AI) is a promising direction for augmenting clinical diagnostic decision support and reducing diagnostic errors, a leading contributor to medical errors. To further the development of clinical AI systems, the Diagnostic Reasoning Benchmark (DR.BENCH) was introduced as a comprehensive generative AI framework, comprised of six tasks representing key components in clinical reasoning. We present a comparative analysis of in-domain versus out-of-domain language models as well as multi-task versus single task training with a focus on the problem summarization task in DR.BENCH (Gao et al., 2023). We demonstrate that a multi-task, clinically trained language model outperforms its general domain counterpart by a large margin, establishing a new state-of-the-art performance, with a ROUGE-L score of 28.55. This research underscores the value of domain-specific training for optimizing clinical diagnostic reasoning tasks.

arxiv情報

著者 Brihat Sharma,Yanjun Gao,Timothy Miller,Matthew M. Churpek,Majid Afshar,Dmitriy Dligach
発行日 2023-06-13 17:28:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク