Exploring Multilingual Large Language Models for Enhanced TNM classification of Radiology Report in lung cancer staging

要約

背景: 構造化された放射線医学レポートは、労働集約的な構造化と物語形式のレポートのため、未開発のままです。
ディープラーニング、特に GPT-3.5 のような大規模言語モデル (LLM) は、自然言語による放射線医学レポートの構造化を自動化するのに有望です。
ただし、LLM は英語以外の言語では効果が低いことが報告されていますが、その放射線学的性能は十分に研究されていません。
目的:本研究は、GPT3.5ターボ(GPT3.5)を用いた放射線科レポートに基づくTNM分類の精度と、日本語と英語の多言語LLMの有用性を調査することを目的とした。
材料と方法: GPT3.5 を利用して、肺がんの胸部 CT レポートから TNM 分類を自動的に生成し、その性能を評価するシステムを開発しました。
一般化線形混合モデルを使用して、両方の言語で完全または部分的な TNM 定義を提供した場合の影響を統計的に分析しました。
結果: 完全な TNM 定義と英語の放射線医学レポートで最高の精度が達成されました (M = 94%、N = 80%、T = 47%、および ALL = 36%)。
T、N、および M 因子のそれぞれの定義を提供すると、それぞれの精度が統計的に向上しました (T: オッズ比 (OR) = 2.35、p < 0.001; N: OR = 1.94、p < 0.01; M: OR = 2.50、p < 0.001)。 日本の報告では、N と M の精度が低下していました (N 精度: OR = 0.74、M 精度: OR = 0.21)。 結論: この研究は、放射線医学レポートにおける自動 TNM 分類における多言語 LLM の可能性を強調しています。 追加のモデル トレーニングがなくても、提供された TNM 定義によりパフォーマンスの向上が明らかであり、放射線医学の文脈における LLM の関連性が示されています。

要約(オリジナル)

Background: Structured radiology reports remains underdeveloped due to labor-intensive structuring and narrative-style reporting. Deep learning, particularly large language models (LLMs) like GPT-3.5, offers promise in automating the structuring of radiology reports in natural languages. However, although it has been reported that LLMs are less effective in languages other than English, their radiological performance has not been extensively studied. Purpose: This study aimed to investigate the accuracy of TNM classification based on radiology reports using GPT3.5-turbo (GPT3.5) and the utility of multilingual LLMs in both Japanese and English. Material and Methods: Utilizing GPT3.5, we developed a system to automatically generate TNM classifications from chest CT reports for lung cancer and evaluate its performance. We statistically analyzed the impact of providing full or partial TNM definitions in both languages using a Generalized Linear Mixed Model. Results: Highest accuracy was attained with full TNM definitions and radiology reports in English (M = 94%, N = 80%, T = 47%, and ALL = 36%). Providing definitions for each of the T, N, and M factors statistically improved their respective accuracies (T: odds ratio (OR) = 2.35, p < 0.001; N: OR = 1.94, p < 0.01; M: OR = 2.50, p < 0.001). Japanese reports exhibited decreased N and M accuracies (N accuracy: OR = 0.74 and M accuracy: OR = 0.21). Conclusion: This study underscores the potential of multilingual LLMs for automatic TNM classification in radiology reports. Even without additional model training, performance improvements were evident with the provided TNM definitions, indicating LLMs' relevance in radiology contexts.

arxiv情報

著者 Hidetoshi Matsuo,Mizuho Nishio,Takaaki Matsunaga,Koji Fujimoto,Takamichi Murakami
発行日 2024-06-12 15:19:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク