Evaluating The Performance of Using Large Language Models to Automate Summarization of CT Simulation Orders in Radiation Oncology

要約

目的:この調査は、大規模な言語モデル(LLM)を使用して、CTシミュレーションの順序から概要の生成を自動化し、そのパフォーマンスを評価することを目的としています。
材料と方法:患者の合計607 CTシミュレーション注文が、当社の施設のARIAデータベースから収集されました。
アプリケーションプログラミングインターフェイス(API)サービスを介してアクセスされたローカルホストのLLAMA 3.1 405Bモデルを使用して、CTシミュレーション順序からキーワードを抽出し、概要を生成しました。
ダウンロードされたCTシミュレーション注文は、治療法と疾患部位に基づいて7つのグループに分類されました。
各グループについて、カスタマイズされた命令プロンプトがセラピストと協力して開発され、概要を生成するllama 3.1 405bモデルを導きました。
対応する要約の基本真理は、各CTシミュレーション順序を慎重に確認し、その後セラピストによって検証されたことにより、手動で導き出されました。
LLMで生成された要約の精度は、検証されたグラウンドトゥルースを参照として使用して、セラピストによって評価されました。
結果:LLMで生成された要約の約98%は、精度の観点から手動で生成された地上真実と一致しました。
私たちの評価は、対応するセラピストが生成した要約と比較して、LLM生成の要約の形式の一貫性が向上し、読みやすさの向上を示しました。
この自動化されたアプローチは、モダリティや病気のサイトに関係なく、すべてのグループで一貫したパフォーマンスを示しました。
結論:この研究は、キーワードの抽出とCTシミュレーション順序の要約におけるLlama 3.1 405Bモデルの高精度と一貫性を実証し、LLMがこのタスクを支援し、セラピストのワークロードを減らし、ワークフロー効率を向上させる可能性があることを示唆しています。

要約(オリジナル)

Purpose: This study aims to use a large language model (LLM) to automate the generation of summaries from the CT simulation orders and evaluate its performance. Materials and Methods: A total of 607 CT simulation orders for patients were collected from the Aria database at our institution. A locally hosted Llama 3.1 405B model, accessed via the Application Programming Interface (API) service, was used to extract keywords from the CT simulation orders and generate summaries. The downloaded CT simulation orders were categorized into seven groups based on treatment modalities and disease sites. For each group, a customized instruction prompt was developed collaboratively with therapists to guide the Llama 3.1 405B model in generating summaries. The ground truth for the corresponding summaries was manually derived by carefully reviewing each CT simulation order and subsequently verified by therapists. The accuracy of the LLM-generated summaries was evaluated by therapists using the verified ground truth as a reference. Results: About 98% of the LLM-generated summaries aligned with the manually generated ground truth in terms of accuracy. Our evaluations showed an improved consistency in format and enhanced readability of the LLM-generated summaries compared to the corresponding therapists-generated summaries. This automated approach demonstrated a consistent performance across all groups, regardless of modality or disease site. Conclusions: This study demonstrated the high precision and consistency of the Llama 3.1 405B model in extracting keywords and summarizing CT simulation orders, suggesting that LLMs have great potential to help with this task, reduce the workload of therapists and improve workflow efficiency.

arxiv情報

著者 Meiyun Cao,Shaw Hu,Jason Sharp,Edward Clouser,Jason Holmes,Linda L. Lam,Xiaoning Ding,Diego Santos Toesca,Wendy S. Lindholm,Samir H. Patel,Sujay A. Vora,Peilong Wang,Wei Liu
発行日 2025-01-27 18:47:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, physics.med-ph パーマリンク