要約
この論文は、診断対話システムや電子医療記録 (EMR) の自動筆記に不可欠な医療対話からの用語と状態のペアの抽出 (MD-TSPE) に焦点を当てています。
ここ数年、特に生成手法による目覚ましい進歩の後、MD-TSPE に関する研究がますます注目を集めています。
しかし、これらの生成手法は、用語とステータスのペアからなるシーケンス全体を 1 段階で出力し、事前知識の統合を無視するため、用語間の関係をモデル化し、各用語のステータスを推測するためのより深い理解を必要とします。
この論文では、上記の課題に対処するための知識強化型 2 段階生成フレームワーク (KTGF) を紹介します。
タスク固有のプロンプトを使用して、単一のモデルを採用し、統一された生成形式で 2 つのフェーズを通じて MD-TSPE を完成させます。最初にすべての用語を生成し、次に生成された各用語のステータスを生成します。
このようにして、第 1 フェーズで用語のみを含むシーケンスから用語間の関係をより効果的に学習することができ、第 2 フェーズで設計された知識強化プロンプトでは、生成された用語のカテゴリとステータス候補をステータス生成に活用できます。
さらに、私たちが提案する「言及されていない」特別なステータスにより、より多くの用語が利用可能になり、第 2 フェーズのトレーニング データが充実します。これは、リソースが少ない環境では重要です。
Chunyu データセットと CMDD データセットでの実験では、提案された方法が完全なトレーニングと低リソース設定で最先端のモデルと比較して優れた結果を達成することが示されています。
要約(オリジナル)
This paper focuses on term-status pair extraction from medical dialogues (MD-TSPE), which is essential in diagnosis dialogue systems and the automatic scribe of electronic medical records (EMRs). In the past few years, works on MD-TSPE have attracted increasing research attention, especially after the remarkable progress made by generative methods. However, these generative methods output a whole sequence consisting of term-status pairs in one stage and ignore integrating prior knowledge, which demands a deeper understanding to model the relationship between terms and infer the status of each term. This paper presents a knowledge-enhanced two-stage generative framework (KTGF) to address the above challenges. Using task-specific prompts, we employ a single model to complete the MD-TSPE through two phases in a unified generative form: we generate all terms the first and then generate the status of each generated term. In this way, the relationship between terms can be learned more effectively from the sequence containing only terms in the first phase, and our designed knowledge-enhanced prompt in the second phase can leverage the category and status candidates of the generated term for status generation. Furthermore, our proposed special status ‘not mentioned’ makes more terms available and enriches the training data in the second phase, which is critical in the low-resource setting. The experiments on the Chunyu and CMDD datasets show that the proposed method achieves superior results compared to the state-of-the-art models in the full training and low-resource settings.
arxiv情報
著者 | Zefa Hu,Ziyi Ni,Jing Shi,Shuang Xu,Bo Xu |
発行日 | 2023-10-25 12:41:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google