Comparing Two Model Designs for Clinical Note Generation; Is an LLM a Useful Evaluator of Consistency?

要約

患者とのやり取りの後、医師は臨床文書を提出する責任を負い、多くの場合、SOAP ノートとしてまとめられます。
臨床メモは単なる会話の要約ではなく、適切な医学用語を使用する必要があります。
その後、関連情報を抽出し、SOAP ノートの構造に従って整理できます。
このペーパーでは、会話の音声録音に基づいて SOAP ノートのさまざまなセクションを生成する 2 つの異なるアプローチを分析し、特にノートの一貫性の観点からそれらを調べます。
最初の方法ではセクションが個別に生成されますが、2 番目の方法ではセクションがすべてまとめて生成されます。
この研究では、PEGASUS-X Transformer モデルを利用し、どちらの方法でも同様の ROUGE 値 (差異は 1% 未満) が得られ、Factuality メトリクスに関しては差異がないことを観察しました。
私たちは人間による評価を実行して一貫性の側面を測定し、Llama2 のような LLM を使用して人間のアノテーターとほぼ同じ合意で同じタスクを実行できることを実証します。
Llama2 解析と人間の評価者の間では、年齢、性別、身体部位の損傷の一貫性について、コーエン カッパ評価者間信頼性がそれぞれ 0.79、1.00、0.32 であることが観察されました。
これにより、LLM を活用して、人間によって識別できるものの、現時点では自動メトリクスによって捕捉されていない品質指標を測定することの有用性を実証します。
これにより、評価をより大きなデータセットに拡張できるようになり、以前に生成されたすべてのセクションの出力を条件として新しいセクションをそれぞれ生成することで、臨床記録の一貫性が向上することがわかりました。

要約(オリジナル)

Following an interaction with a patient, physicians are responsible for the submission of clinical documentation, often organized as a SOAP note. A clinical note is not simply a summary of the conversation but requires the use of appropriate medical terminology. The relevant information can then be extracted and organized according to the structure of the SOAP note. In this paper we analyze two different approaches to generate the different sections of a SOAP note based on the audio recording of the conversation, and specifically examine them in terms of note consistency. The first approach generates the sections independently, while the second method generates them all together. In this work we make use of PEGASUS-X Transformer models and observe that both methods lead to similar ROUGE values (less than 1% difference) and have no difference in terms of the Factuality metric. We perform a human evaluation to measure aspects of consistency and demonstrate that LLMs like Llama2 can be used to perform the same tasks with roughly the same agreement as the human annotators. Between the Llama2 analysis and the human reviewers we observe a Cohen Kappa inter-rater reliability of 0.79, 1.00, and 0.32 for consistency of age, gender, and body part injury, respectively. With this we demonstrate the usefulness of leveraging an LLM to measure quality indicators that can be identified by humans but are not currently captured by automatic metrics. This allows scaling evaluation to larger data sets, and we find that clinical note consistency improves by generating each new section conditioned on the output of all previously generated sections.

arxiv情報

著者 Nathan Brake,Thomas Schaaf
発行日 2024-04-09 17:54:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク