ODD: A Benchmark Dataset for the NLP-based Opioid Related Aberrant Behavior Detection

要約

オピオイド関連異常行動(ORAB)は、オピオイド過剰摂取の新たな危険因子を示します。
これまで、ORAB は主に調査結果と薬剤投与のモニタリングによって評価されてきました。
ただし、このような方法では規模を拡大することができず、異常な動作の全領域をカバーすることはできません。
一方、ORAB は電子医療記録ノートに広く文書化されています。
この論文では、ORAB 検出データセット用の ODD という名前の新しい生物医学自然言語処理ベンチマーク データセットを紹介します。
ODD は、750 を超える公開されている EHR ノートで構成される専門家による注釈付きのデータセットです。
ODD は、患者の EHR メモから ORAB を特定し、9 つのカテゴリに分類するように設計されています。
1) 確認された異常行動、2) 示唆された異常行動、3) オピオイド、4) 適応症、5) 診断されたオピオイド依存症、6) ベンゾジアピン、7) 薬剤変更、8) 中枢神経系関連、および 9) 健康の社会的決定要因。
ORAB を特定するために、2 つの最先端の自然言語処理 (NLP) モデル (事前トレーニング済み言語モデルの微調整とプロンプトチューニングのアプローチ) を調査しました。
実験結果は、ほとんどのカテゴリで即時調整モデルが微調整モデルよりも優れたパフォーマンスを示し、特に一般的ではないカテゴリ (異常行動の示唆、オピオイド依存症の診断、および薬剤変更) で利得が高かったことを示しています。
最良のモデルは適合率再現曲線下面積で最高の 83.92% を達成しましたが、一般的ではないクラス (異常行動の示唆、オピオイド依存症の診断、および投薬変更) にはまだパフォーマンスを向上させる大きな余地があります。

要約(オリジナル)

Opioid related aberrant behaviors (ORAB) present novel risk factors for opioid overdose. Previously, ORAB have been mainly assessed by survey results and by monitoring drug administrations. Such methods however, cannot scale up and do not cover the entire spectrum of aberrant behaviors. On the other hand, ORAB are widely documented in electronic health record notes. This paper introduces a novel biomedical natural language processing benchmark dataset named ODD, for ORAB Detection Dataset. ODD is an expert-annotated dataset comprising of more than 750 publicly available EHR notes. ODD has been designed to identify ORAB from patients’ EHR notes and classify them into nine categories; 1) Confirmed Aberrant Behavior, 2) Suggested Aberrant Behavior, 3) Opioids, 4) Indication, 5) Diagnosed opioid dependency, 6) Benzodiapines, 7) Medication Changes, 8) Central Nervous System-related, and 9) Social Determinants of Health. We explored two state-of-the-art natural language processing (NLP) models (finetuning pretrained language models and prompt-tuning approaches) to identify ORAB. Experimental results show that the prompt-tuning models outperformed the finetuning models in most cateogories and the gains were especially higher among uncommon categories (Suggested aberrant behavior, Diagnosed opioid dependency and Medication change). Although the best model achieved the highest 83.92% on area under precision recall curve, uncommon classes (Suggested Aberrant Behavior, Diagnosed Opioid Dependence, and Medication Change) still have a large room for performance improvement.

arxiv情報

著者 Sunjae Kwon,Xun Wang,Weisong Liu,Emily Druhl,Minhee L. Sung,Joel I. Reisman,Wenjun Li,Robert D. Kerns,William Becker,Hong Yu
発行日 2023-07-24 00:47:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク