Health Text Simplification: An Annotated Corpus for Digestive Cancer Education and Novel Strategies for Reinforcement Learning

要約

目的: 健康教育資料の読解レベルは、特に少数派の人々にとって、情報の理解しやすさとアクセスしやすさに大きく影響します。
多くの患者教育リソースは、広く受け入れられている標準の読解レベルと複雑さを上回っています。
普及と読み書き能力を高めるためには、健康情報における高性能のテキスト簡略化モデルが非常に必要です。
この必要性はがん教育において特に深刻であり、効果的な予防とスクリーニング教育により罹患率と死亡率を大幅に減らすことができます。
方法: 保健テキストの簡素化研究用に調整されたがん教育資料の並列コーパスである簡易消化器がん (SimpleDC) を紹介します。
SimpleDC を既存の Med-EASi コーパスと併用して、微調整、強化学習 (RL)、ヒューマン フィードバックによる強化学習 (RLHF)、ドメイン適応、プロンプトベースなどの大規模言語モデル (LLM) ベースの簡略化手法を探索します。
近づいてきます。
私たちの実験には、Llama 2 と GPT-4 が含まれています。
新しい RLHF 報酬関数が導入され、オリジナルのテキストと簡略化されたテキストの区別に優れた軽量モデルが特徴となり、ラベルのないデータでのモデルの有効性が向上します。
結果: 微調整された Llama 2 モデルは、さまざまな指標にわたって高いパフォーマンスを実証しました。
当社の革新的な RLHF 報酬関数は、有効性において既存の RL テキスト簡略化報酬関数を上回りました。
この結果は、RL/RLHF が微調整を強化し、ラベルのないテキストでのモデルのトレーニングを促進し、パフォーマンスを向上させることができることを強調しています。
さらに、これらの方法は、ドメイン外のテキスト簡略化モデルをターゲットのドメインに効果的に適応させます。

要約(オリジナル)

Objective: The reading level of health educational materials significantly influences information understandability and accessibility, particularly for minoritized populations. Many patient educational resources surpass the reading level and complexity of widely accepted standards. There is a critical need for high-performing text simplification models in health information to enhance dissemination and literacy. This need is particularly acute in cancer education, where effective prevention and screening education can substantially reduce morbidity and mortality. Methods: We introduce Simplified Digestive Cancer (SimpleDC), a parallel corpus of cancer education materials tailored for health text simplification research. Utilizing SimpleDC alongside the existing Med-EASi corpus, we explore Large Language Model (LLM)-based simplification methods, including fine-tuning, reinforcement learning (RL), reinforcement learning with human feedback (RLHF), domain adaptation, and prompt-based approaches. Our experimentation encompasses Llama 2 and GPT-4. A novel RLHF reward function is introduced, featuring a lightweight model adept at distinguishing between original and simplified texts, thereby enhancing the model’s effectiveness with unlabeled data. Results: Fine-tuned Llama 2 models demonstrated high performance across various metrics. Our innovative RLHF reward function surpassed existing RL text simplification reward functions in effectiveness. The results underscore that RL/RLHF can augment fine-tuning, facilitating model training on unlabeled text and improving performance. Additionally, these methods effectively adapt out-of-domain text simplification models to targeted domains.

arxiv情報

著者 Md Mushfiqur Rahman,Mohammad Sabik Irbaz,Kai North,Michelle S. Williams,Marcos Zampieri,Kevin Lybarger
発行日 2024-01-26 18:13:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク