BeeManc at the PLABA Track of TAC-2023: Investigating LLMs and Controllable Attributes for Improving Biomedical Text Readability

要約

このシステム レポートでは、TAC 2023 トラックの一部である生物医学的抽象の単純化に関する PLABA2023 タスクに参加するために使用したモデルと手法について説明します。
私たちが提出したシステム出力は、次の 3 つのカテゴリに分類されます。1) Biomedical-T5 および Lay-SciFive を含む、ドメイン微調整された T5 のようなモデル。
2) 制御可能な属性 (トークン経由) BART-w-CT を備えた微調整された BARTLarge モデル。
3) ChatGPT プロンプト。
また、BioGPT 微調整に関するこのタスクのために実行した作業も紹介します。
SARI スコアを使用した公式の自動評価では、BeeManc は全チーム中 2 位にランクされ、当社のモデル LaySciFive は評価された 13 のシステムすべて中 3 位にランクされました。
人間による公式評価では、当社のモデル BART-w-CT は、評価された 7 つのシステムすべての中で、文の単純さ (スコア 92.84) で 2 位、用語の単純さ (スコア 82.33) で 3 位にランクされています。
また、流暢さに関しては最高スコア 93.53 と比較して、91.57 という高いスコアを記録しました。
第 2 ラウンドの提出では、ChatGPT プロンプトを使用する私たちのチームが、簡略化された用語の正確性スコア 92.26 と完全性スコア 96.58 を含むいくつかのカテゴリで 2 位にランクされ、忠実度スコア 95.3 は再評価された PLABA-base-1 (95.73) と非常によく似ていました。
)人間の評価を介して。
システム開発段階からのコード、微調整されたモデル、プロンプト、データ分割は、https://github.com/HECTA-UoM/PLABA-MU で入手できます。

要約(オリジナル)

In this system report, we describe the models and methods we used for our participation in the PLABA2023 task on biomedical abstract simplification, part of the TAC 2023 tracks. The system outputs we submitted come from the following three categories: 1) domain fine-tuned T5-like models including Biomedical-T5 and Lay-SciFive; 2) fine-tuned BARTLarge model with controllable attributes (via tokens) BART-w-CTs; 3) ChatGPTprompting. We also present the work we carried out for this task on BioGPT finetuning. In the official automatic evaluation using SARI scores, BeeManc ranks 2nd among all teams and our model LaySciFive ranks 3rd among all 13 evaluated systems. In the official human evaluation, our model BART-w-CTs ranks 2nd on Sentence-Simplicity (score 92.84), 3rd on Term-Simplicity (score 82.33) among all 7 evaluated systems; It also produced a high score 91.57 on Fluency in comparison to the highest score 93.53. In the second round of submissions, our team using ChatGPT-prompting ranks the 2nd in several categories including simplified term accuracy score 92.26 and completeness score 96.58, and a very similar score on faithfulness score 95.3 to re-evaluated PLABA-base-1 (95.73) via human evaluations. Our codes, fine-tuned models, prompts, and data splits from the system development stage will be available at https://github.com/ HECTA-UoM/PLABA-MU

arxiv情報

著者 Zihao Li,Samuel Belkadi,Nicolo Micheletti,Lifeng Han,Matthew Shardlow,Goran Nenadic
発行日 2024-08-07 16:21:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク