GASCADE: Grouped Summarization of Adverse Drug Event for Enhanced Cancer Pharmacovigilance

要約

癌治療の領域では、処方された薬物を使用している患者によって報告された有害な薬物イベント(ADE)を要約することは、薬物存在の実践を強化し、薬物関連の意思決定を改善するために重要です。
薬局性データの量と複雑さは増加していますが、この分野の既存の研究は、主に癌に対処するのではなく、一般的な疾患に焦点を当てています。
この研究では、癌治療のために同じ薬物を使用している複数の患者によって報告された有害薬物イベントのグループ化された要約のタスクを紹介します。
がんの薬物存在における限られた資源の課題に対処するために、多重癌の有害薬物反応と要約(MCADRS)データセットを提示します。
このデータセットには、薬物の有効性と副作用に関する患者の懸念を詳述する薬局性の投稿と、薬物名、有害な薬物イベント、重症度、反応の逆境、および各薬物のADEの概要が含まれています。
さらに、大規模な言語モデル(LLM)の情報抽出能力をエンコーダデコーダーT5モデルの要約能力と組み合わせた新しいパイプラインである、がん有害薬物イベント(ガスケード)フレームワークのグループ化と抽象的な要約を提案します。
私たちの作業は、要約タスクの合成データセットを使用して、直接選好最適化などの高度なアルゴリズムを含む、エンコーダデコーダーモデルを含むアライメント手法を最初に適用します。
広範な実験を通じて、自動化された評価と人間の評価の両方を通じて検証されたさまざまなメトリックにわたるガスケードの優れたパフォーマンスを実証します。
このマルチタスクアプローチは、薬物関連の意思決定を促進し、患者の懸念をより深く理解し、パーソナライズされた反応性のあるがんケアの進歩への道を開いています。
この作業で使用されているコードとデータセットは公開されています。

要約(オリジナル)

In the realm of cancer treatment, summarizing adverse drug events (ADEs) reported by patients using prescribed drugs is crucial for enhancing pharmacovigilance practices and improving drug-related decision-making. While the volume and complexity of pharmacovigilance data have increased, existing research in this field has predominantly focused on general diseases rather than specifically addressing cancer. This work introduces the task of grouped summarization of adverse drug events reported by multiple patients using the same drug for cancer treatment. To address the challenge of limited resources in cancer pharmacovigilance, we present the MultiLabeled Cancer Adverse Drug Reaction and Summarization (MCADRS) dataset. This dataset includes pharmacovigilance posts detailing patient concerns regarding drug efficacy and adverse effects, along with extracted labels for drug names, adverse drug events, severity, and adversity of reactions, as well as summaries of ADEs for each drug. Additionally, we propose the Grouping and Abstractive Summarization of Cancer Adverse Drug events (GASCADE) framework, a novel pipeline that combines the information extraction capabilities of Large Language Models (LLMs) with the summarization power of the encoder-decoder T5 model. Our work is the first to apply alignment techniques, including advanced algorithms like Direct Preference Optimization, to encoder-decoder models using synthetic datasets for summarization tasks. Through extensive experiments, we demonstrate the superior performance of GASCADE across various metrics, validated through both automated assessments and human evaluations. This multitasking approach enhances drug-related decision-making and fosters a deeper understanding of patient concerns, paving the way for advancements in personalized and responsive cancer care. The code and dataset used in this work are publicly available.

arxiv情報

著者 Sofia Jamil,Aryan Dabad,Bollampalli Areen Reddy,Sriparna Saha,Rajiv Misra,Adil A. Shakur
発行日 2025-05-07 09:40:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク