Consensus, dissensus and synergy between clinicians and specialist foundation models in radiology report generation

要約

放射線医学レポートは現代医学の重要な部分であり、診断や治療などの重要な臨床上の決定を知らせます。
しかし、放射線科医が世界的に不足しているため、専門家の治療へのアクセスが制限され、多大な作業負荷が課せられ、避けられるミスや報告書の提出の遅れにつながっています。
ビジョン言語モデルを使用した自動レポート生成の最近の進歩は、状況を改善する明らかな可能性をもたらしていますが、実際の導入への道は、AI によって生成されたレポートの臨床品質を評価するという課題によって妨げられています。
この研究では、放射線医学データに関するよく知られた視覚言語基盤モデルを微調整することにより、胸部 X 線写真用の最先端のレポート生成システム \textit{Flamingo-CXR} を構築します。
AI が生成したレポートの品質を評価するために、16 人の認定放射線科医からなるグループが、米国の集中治療施設とインドの入院施設からの胸部 X 線写真について、AI が生成したレポートと人間が作成したレポートの詳細な評価を提供しています。
少なくとも 1 人の放射線科医 (症例あたり 2 人中) は、両方のデータセットの 60$\%$ 以上の症例で、グラウンド トゥルース レポートよりも AI レポートを好んでいました。
AI が生成したエラーを含むレポートのサブセットの中で、最も頻繁に挙げられた理由は場所と所見に関連していましたが、人間が作成したレポートの場合、ほとんどの間違いは重大度と所見に関連していました。
この差異は、AI システムと人間の専門家との間に潜在的な補完性があることを示唆しており、\textit{Flamingo-CXR} が最初の報告書を生成し、その後臨床医によって改訂されるという支援シナリオの開発を促しました。
これは、レポート作成における臨床医と AI のコラボレーションの最初のデモンストレーションであり、結果として得られるレポートは、入院患者の症例の 80$\%$ と 60$ の専門家だけが書いたレポートと少なくとも 1 人の放射線科医によって同等または好まれていると評価されています。
\%$ の集中治療症例。

要約(オリジナル)

Radiology reports are an instrumental part of modern medicine, informing key clinical decisions such as diagnosis and treatment. The worldwide shortage of radiologists, however, restricts access to expert care and imposes heavy workloads, contributing to avoidable errors and delays in report delivery. While recent progress in automated report generation with vision-language models offer clear potential in ameliorating the situation, the path to real-world adoption has been stymied by the challenge of evaluating the clinical quality of AI-generated reports. In this study, we build a state-of-the-art report generation system for chest radiographs, \textit{Flamingo-CXR}, by fine-tuning a well-known vision-language foundation model on radiology data. To evaluate the quality of the AI-generated reports, a group of 16 certified radiologists provide detailed evaluations of AI-generated and human written reports for chest X-rays from an intensive care setting in the United States and an inpatient setting in India. At least one radiologist (out of two per case) preferred the AI report to the ground truth report in over 60$\%$ of cases for both datasets. Amongst the subset of AI-generated reports that contain errors, the most frequently cited reasons were related to the location and finding, whereas for human written reports, most mistakes were related to severity and finding. This disparity suggested potential complementarity between our AI system and human experts, prompting us to develop an assistive scenario in which \textit{Flamingo-CXR} generates a first-draft report, which is subsequently revised by a clinician. This is the first demonstration of clinician-AI collaboration for report writing, and the resultant reports are assessed to be equivalent or preferred by at least one radiologist to reports written by experts alone in 80$\%$ of in-patient cases and 60$\%$ of intensive care cases.

arxiv情報

著者 Ryutaro Tanno,David G. T. Barrett,Andrew Sellergren,Sumedh Ghaisas,Sumanth Dathathri,Abigail See,Johannes Welbl,Karan Singhal,Shekoofeh Azizi,Tao Tu,Mike Schaekermann,Rhys May,Roy Lee,SiWai Man,Zahra Ahmed,Sara Mahdavi,Danielle Belgrave,Vivek Natarajan,Shravya Shetty,Pushmeet Kohli,Po-Sen Huang,Alan Karthikesalingam,Ira Ktena
発行日 2023-12-06 17:16:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, eess.IV パーマリンク