要約
レポート生成モデルは、胸部 X 線写真などの医療画像のきめ細かいテキスト解釈を提供しますが、多くの場合、インタラクティブ性 (つまり、ユーザーのクエリを通じて生成プロセスを操作する機能) と局所的な解釈可能性 (つまり、予測を視覚的に根拠付ける) が欠けていると考えられます。
将来の臨床現場での採用には不可欠です。
これらの問題に取り組む取り組みは行われてきましたが、テキストクエリをサポートしていないため対話性が制限されているか、ローカライズされた解釈可能性も提供できていません。
したがって、私たちは、解剖学的領域や病理などのさまざまな側面に対するテキストプロンプトと境界ボックスを統合した、新しいマルチタスクアーキテクチャとトレーニングパラダイムを提案します。
私たちはこのアプローチを胸部 X 線説明者 (ChEX) と呼んでいます。
局所的な画像解釈とレポート生成を含む、9 つの胸部 X 線タスクの異種セットにわたる評価により、SOTA モデルとの競争力が実証され、追加の分析により ChEX のインタラクティブ機能が実証されました。
コード: https://github.com/philip-mueller/chex
要約(オリジナル)
Report generation models offer fine-grained textual interpretations of medical images like chest X-rays, yet they often lack interactivity (i.e. the ability to steer the generation process through user queries) and localized interpretability (i.e. visually grounding their predictions), which we deem essential for future adoption in clinical practice. While there have been efforts to tackle these issues, they are either limited in their interactivity by not supporting textual queries or fail to also offer localized interpretability. Therefore, we propose a novel multitask architecture and training paradigm integrating textual prompts and bounding boxes for diverse aspects like anatomical regions and pathologies. We call this approach the Chest X-Ray Explainer (ChEX). Evaluations across a heterogeneous set of 9 chest X-ray tasks, including localized image interpretation and report generation, showcase its competitiveness with SOTA models while additional analysis demonstrates ChEX’s interactive capabilities. Code: https://github.com/philip-mueller/chex
arxiv情報
著者 | Philip Müller,Georgios Kaissis,Daniel Rueckert |
発行日 | 2024-07-15 15:22:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google