README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP

要約

医療の進歩により、患者中心のアプローチ、特にセルフケアと患者教育に焦点が移り、電子医療記録 (EHR) へのアクセスが促進されています。
しかし、EHR における医療専門用語は、患者の理解に大きな課題をもたらします。
これに対処するために、複雑な医療用語を患者にわかりやすい一般用語に簡略化することを目的として、一般用語の定義を自動的に生成する新しいタスクを導入します。
私たちは最初に README データセットを作成しました。これは、50,000 を超える一意の (医学用語、一般用語の定義) ペアと 300,000 件の言及の広範なコレクションであり、それぞれがドメインの専門家によって手動で注釈が付けられたコンテキストを認識した一般用語の定義を提供します。
また、データのフィルタリング、拡張、選択を相乗してデータ品質を向上させる、データ中心の Human-AI パイプラインも設計しました。
次に、README をモデルのトレーニング データとして使用し、検索拡張生成手法を活用して幻覚を軽減し、モデル出力の品質を向上させました。
私たちの広範な自動評価と人間による評価は、オープンソースのモバイル対応モデルが、高品質のデータで微調整された場合、次のような最先端のクローズドソースの大規模言語モデルのパフォーマンスに匹敵する、またはそれを上回ることができることを実証しています。
チャットGPT。
この研究は、患者教育における知識のギャップを埋め、患者中心の医療ソリューションを推進する上での大きな進歩を表しています。

要約(オリジナル)

The advancement in healthcare has shifted focus toward patient-centric approaches, particularly in self-care and patient education, facilitated by access to Electronic Health Records (EHR). However, medical jargon in EHRs poses significant challenges in patient comprehension. To address this, we introduce a new task of automatically generating lay definitions, aiming to simplify complex medical terms into patient-friendly lay language. We first created the README dataset, an extensive collection of over 50,000 unique (medical term, lay definition) pairs and 300,000 mentions, each offering context-aware lay definitions manually annotated by domain experts. We have also engineered a data-centric Human-AI pipeline that synergizes data filtering, augmentation, and selection to improve data quality. We then used README as the training data for models and leveraged a Retrieval-Augmented Generation method to reduce hallucinations and improve the quality of model outputs. Our extensive automatic and human evaluations demonstrate that open-source mobile-friendly models, when fine-tuned with high-quality data, are capable of matching or even surpassing the performance of state-of-the-art closed-source large language models like ChatGPT. This research represents a significant stride in closing the knowledge gap in patient education and advancing patient-centric healthcare solutions.

arxiv情報

著者 Zonghai Yao,Nandyala Siddharth Kantu,Guanghao Wei,Hieu Tran,Zhangqi Duan,Sunjae Kwon,Zhichao Yang,README annotation team,Hong Yu
発行日 2024-10-02 16:52:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク