要約
放射線医学レポートのタスクには、位置や外観の説明を含む、放射線画像内の医学的所見の説明と解釈が含まれます。
放射線医学レポートへの自動化されたアプローチでは、画像を言語モデルへの入力に適したトークン表現にエンコードする必要があります。
従来の方法では、一般的に畳み込みニューラル ネットワークを使用して、画像を一連の画像レベルの特徴マップ表現にエンコードしました。
ただし、生成されたレポートは、多くの場合、現実的なスタイルを示しますが、正確さは不完全です。
各視覚トークンが画像内で検出されたオブジェクトに対応する一般的な領域における画像キャプションの最近の研究に触発され、解剖学的構造に対応するローカル トークンを使用することで生成されるレポートの品質が向上するかどうかを調査します。
解剖学的構造の位置特定中に抽出された候補境界ボックスに対して所見検出が実行される、Faster R-CNN の新しい適応を紹介します。
結果として得られる境界ボックスの特徴表現を、所見を認識した解剖学的トークンのセットとして使用します。
これにより、抽出された解剖学的トークンに含まれる所見に関する情報が得られます (放射線医学レポートの最終タスクに必要です)。
胸部 X 線画像の MIMIC-CXR データセットを評価することで、タスク認識型の解剖学的トークンが自動レポート パイプラインに統合された場合に最先端のパフォーマンスを発揮し、臨床精度が向上したレポートが生成されることを示します。
要約(オリジナル)
The task of radiology reporting comprises describing and interpreting the medical findings in radiographic images, including description of their location and appearance. Automated approaches to radiology reporting require the image to be encoded into a suitable token representation for input to the language model. Previous methods commonly use convolutional neural networks to encode an image into a series of image-level feature map representations. However, the generated reports often exhibit realistic style but imperfect accuracy. Inspired by recent works for image captioning in the general domain in which each visual token corresponds to an object detected in an image, we investigate whether using local tokens corresponding to anatomical structures can improve the quality of the generated reports. We introduce a novel adaptation of Faster R-CNN in which finding detection is performed for the candidate bounding boxes extracted during anatomical structure localisation. We use the resulting bounding box feature representations as our set of finding-aware anatomical tokens. This encourages the extracted anatomical tokens to be informative about the findings they contain (required for the final task of radiology reporting). Evaluating on the MIMIC-CXR dataset of chest X-Ray images, we show that task-aware anatomical tokens give state-of-the-art performance when integrated into an automated reporting pipeline, yielding generated reports with improved clinical accuracy.
arxiv情報
著者 | Francesco Dalla Serra,Chaoyang Wang,Fani Deligianni,Jeffrey Dalton,Alison Q. O’Neil |
発行日 | 2023-08-30 11:35:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google