Controllable Chest X-Ray Report Generation from Longitudinal Representations

要約

放射線科レポートは、医療スキャンの内容をテキストで詳細に説明したものです。
各レポートには、関連する臨床所見の有無および位置が記載されており、通常、同じ患者の以前の検査との比較が含まれ、それらがどのように進展したかが記載されています。
放射線科レポートは時間のかかるプロセスであり、スキャン結果が遅れることがよくあります。
レポートを迅速化するための 1 つの戦略は、自動レポート システムを統合することですが、臨床導入には高い精度と解釈可能性が必要です。
自動化された放射線医学レポートに対するこれまでのアプローチは、一般に、入力として以前の研究を提供せず、一部のタイプのスキャンでの臨床精度に必要な比較ができず、信頼性の低い解釈方法しか提供していません。
したがって、解剖学的トークンの既存の視覚入力フォーマットを活用して、我々は 2 つの新しい側面を導入します: (1) 縦方向表現学習 — 以前のスキャンを追加入力として入力し、現在と以前の視覚を位置合わせ、連結、融合する方法を提案します。
マルチモーダルレポート生成モデルに提供できる共同縦断表現への情報。
(2) センテンス解剖学的ドロップアウト — 制御性のためのトレーニング戦略。レポート生成モデルは、入力として与えられた解剖学的領域のサブセットに対応する元のレポートからのセンテンスのみを予測するようにトレーニングされます。
MIMIC-CXR データセットの詳細な実験を通じて、提案されたアプローチが解剖学的に制御可能なレポート生成を可能にしながら、どのようにして最先端の結果を達成するかを示します。

要約(オリジナル)

Radiology reports are detailed text descriptions of the content of medical scans. Each report describes the presence/absence and location of relevant clinical findings, commonly including comparison with prior exams of the same patient to describe how they evolved. Radiology reporting is a time-consuming process, and scan results are often subject to delays. One strategy to speed up reporting is to integrate automated reporting systems, however clinical deployment requires high accuracy and interpretability. Previous approaches to automated radiology reporting generally do not provide the prior study as input, precluding comparison which is required for clinical accuracy in some types of scans, and offer only unreliable methods of interpretability. Therefore, leveraging an existing visual input format of anatomical tokens, we introduce two novel aspects: (1) longitudinal representation learning — we input the prior scan as an additional input, proposing a method to align, concatenate and fuse the current and prior visual information into a joint longitudinal representation which can be provided to the multimodal report generation model; (2) sentence-anatomy dropout — a training strategy for controllability in which the report generator model is trained to predict only sentences from the original report which correspond to the subset of anatomical regions given as input. We show through in-depth experiments on the MIMIC-CXR dataset how the proposed approach achieves state-of-the-art results while enabling anatomy-wise controllable report generation.

arxiv情報

著者 Francesco Dalla Serra,Chaoyang Wang,Fani Deligianni,Jeffrey Dalton,Alison Q O’Neil
発行日 2023-10-09 17:22:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク