Automatic Personalized Impression Generation for PET Reports Using Large Language Models

要約

この研究では、微調整されたラージ言語モデル (LLM) が全身 PET レポートに対して正確でパーソナライズされた印象を生成できるかどうかを判断することを目的としました。
12 の言語モデルは、レポート所見を入力として、臨床印象を参照として、教師強制アルゴリズムを使用して PET レポートのコーパス上でトレーニングされました。
追加の入力トークンは読み取り医師の ID をエンコードし、モデルが医師固有のレポート スタイルを学習できるようにします。
私たちのコーパスは、2010 年から 2022 年の間に当施設から収集された 37,370 件の遡及 PET レポートで構成されています。最良の LLM を特定するために、2 人の核医学 (NM) 医師による品質スコアに対して 30 の評価指標がベンチマークされ、最も整合性のとれた指標が専門家による評価のモデルを選択しました。

データのサブセットでは、モデルによって生成された印象と元の臨床印象が、3 人の NM 医師によって 6 つの品質次元 (3 点スケール) と全体的な実用性スコア (5 点スケール) に従って評価されました。
各医師は自分自身の報告書 12 件と他の医師からの報告書 12 件を検討しました。
統計分析にはブートストラップ リサンプリングが使用されました。
すべての評価指標の中で、ドメインに適応した BARTScore と PEGASUSScore は、医師の好みと最も高い Spearman のランク相関 (0.568 および 0.563) を示しました。
これらの指標に基づいて、微調整された PEGASUS モデルが最上位の LLM として選択されました。
医師が独自のスタイルで PEGASUS によって生成された印象をレビューしたところ、89% が臨床的に許容できると考えられ、平均有用性スコアは 5 点中 4.08 でした。医師は、これらの個人化された印象が、全体的な有用性において他の医師によって指示された印象に匹敵すると評価しました (4.03、
P=0.41)。
結論として、PEGASUS によって生成されたパーソナライズされた印象は臨床的に有用であり、PET 報告を迅速化する可能性を強調しました。

要約(オリジナル)

In this study, we aimed to determine if fine-tuned large language models (LLMs) can generate accurate, personalized impressions for whole-body PET reports. Twelve language models were trained on a corpus of PET reports using the teacher-forcing algorithm, with the report findings as input and the clinical impressions as reference. An extra input token encodes the reading physician’s identity, allowing models to learn physician-specific reporting styles. Our corpus comprised 37,370 retrospective PET reports collected from our institution between 2010 and 2022. To identify the best LLM, 30 evaluation metrics were benchmarked against quality scores from two nuclear medicine (NM) physicians, with the most aligned metrics selecting the model for expert evaluation. In a subset of data, model-generated impressions and original clinical impressions were assessed by three NM physicians according to 6 quality dimensions (3-point scale) and an overall utility score (5-point scale). Each physician reviewed 12 of their own reports and 12 reports from other physicians. Bootstrap resampling was used for statistical analysis. Of all evaluation metrics, domain-adapted BARTScore and PEGASUSScore showed the highest Spearman’s rank correlations (0.568 and 0.563) with physician preferences. Based on these metrics, the fine-tuned PEGASUS model was selected as the top LLM. When physicians reviewed PEGASUS-generated impressions in their own style, 89% were considered clinically acceptable, with a mean utility score of 4.08 out of 5. Physicians rated these personalized impressions as comparable in overall utility to the impressions dictated by other physicians (4.03, P=0.41). In conclusion, personalized impressions generated by PEGASUS were clinically useful, highlighting its potential to expedite PET reporting.

arxiv情報

著者 Xin Tie,Muheon Shin,Ali Pirasteh,Nevein Ibrahim,Zachary Huemann,Sharon M. Castellino,Kara M. Kelly,John Garrett,Junjie Hu,Steve Y. Cho,Tyler J. Bradshaw
発行日 2023-10-17 17:24:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, physics.med-ph パーマリンク