MEDVOC: Vocabulary Adaptation for Fine-tuning Pre-trained Language Models on Medical Text Summarization

要約

この研究では、BertSumAbs、BART、PEGASUS などの事前トレーニング済み言語モデル (PLM) を微調整して医療文書の要約を改善するための動的な語彙適応戦略 MEDVOC を紹介します。
要約における既存のドメイン適応アプローチとは対照的に、MEDVOC は語彙を最適化可能なパラメーターとして扱い、下流タスクの参照要約のみを条件としたフラグメント スコアに基づいて PLM 語彙を最適化します。
語彙適応に関する以前の研究 (分類タスクのみに限定) とは異なり、要約タスクに基づいて語彙を最適化するには、大規模な要約データセットに対する非常にコストのかかる中間微調整ステップが必要です。
そのために、当社の新しいフラグメント スコアベースのハイパーパラメータ検索により、この微調整時間が平均 450 日から 2 日未満に大幅に短縮されます。
さらに、語彙適応に関するこれまでの研究は主に単一の PLM に関連付けられていることが多いですが、MEDVOC は複数の PLM (さまざまなモデル語彙サイズ、事前トレーニング目標、モデル サイズ) に展開できるように設計されており、PLM 間での限られた語彙の重複を橋渡しします。
生物医学文献ドメインと PLM。
MEDVOC は、ゼロショット設定で Rouge-L に関してベースラインを 15.74% 上回っており、語彙外 (OOV) 濃度が高い場合には 17.29% の向上を示しています。
私たちの人間による評価では、MEDVOC がより忠実な医学的要約を生成することが示されています (ベースラインの 59% と比較して 88%)。
コードベースは https://github.com/gb-kgp/MEDVOC で公開しています。

要約(オリジナル)

This work presents a dynamic vocabulary adaptation strategy, MEDVOC, for fine-tuning pre-trained language models (PLMs) like BertSumAbs, BART, and PEGASUS for improved medical text summarization. In contrast to existing domain adaptation approaches in summarization, MEDVOC treats vocabulary as an optimizable parameter and optimizes the PLM vocabulary based on fragment score conditioned only on the downstream task’s reference summaries. Unlike previous works on vocabulary adaptation (limited only to classification tasks), optimizing vocabulary based on summarization tasks requires an extremely costly intermediate fine-tuning step on large summarization datasets. To that end, our novel fragment score-based hyperparameter search very significantly reduces this fine-tuning time — from 450 days to less than 2 days on average. Furthermore, while previous works on vocabulary adaptation are often primarily tied to single PLMs, MEDVOC is designed to be deployable across multiple PLMs (with varying model vocabulary sizes, pre-training objectives, and model sizes) — bridging the limited vocabulary overlap between the biomedical literature domain and PLMs. MEDVOC outperforms baselines by 15.74% in terms of Rouge-L in zero-shot setting and shows gains of 17.29% in high Out-Of-Vocabulary (OOV) concentrations. Our human evaluation shows MEDVOC generates more faithful medical summaries (88% compared to 59% in baselines). We make the codebase publicly available at https://github.com/gb-kgp/MEDVOC.

arxiv情報

著者 Gunjan Balde,Soumyadeep Roy,Mainack Mondal,Niloy Ganguly
発行日 2024-05-07 10:00:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク