Anatomical Attention Alignment representation for Radiology Report Generation

要約

Automated Radiology Report Generation(RRG)は、医療画像の詳細な説明を作成し、放射線科医のワークロードを減らし、高品質の診断サービスへのアクセスを改善することを目的としています。
既存のエンコーダーデコーダーモデルは、生の入力画像から抽出された視覚的な機能にのみ依存しており、空間構造とセマンティック関係の理解を制限し、しばしば最適ではないテキスト生成をもたらすことができます。
これに対処するために、ハイパービジュアル表現を構築することで視覚的なテキスト理解を高めるフレームワークである解剖学的注意アラインメントネットワーク(A3NET)を提案します。
私たちのアプローチでは、解剖学的構造の知識辞書をパッチレベルの視覚的特徴と統合し、モデルが対応する解剖学的エンティティと効果的にイメージ領域を効果的に関連付けることができます。
この構造化された表現は、セマンティックな推論、解釈可能性、および相互整合性を改善し、最終的に生成されたレポートの精度と臨床的関連性を高めます。
IU X線およびMIMIC-CXRデータセットの実験結果は、A3NETが視覚的知覚とテキスト生成の品質の両方を大幅に改善することを示しています。
私たちのコードは、\ href {https://github.com/vinh-ai/a3net} {github}で入手できます。

要約(オリジナル)

Automated Radiology report generation (RRG) aims at producing detailed descriptions of medical images, reducing radiologists’ workload and improving access to high-quality diagnostic services. Existing encoder-decoder models only rely on visual features extracted from raw input images, which can limit the understanding of spatial structures and semantic relationships, often resulting in suboptimal text generation. To address this, we propose Anatomical Attention Alignment Network (A3Net), a framework that enhance visual-textual understanding by constructing hyper-visual representations. Our approach integrates a knowledge dictionary of anatomical structures with patch-level visual features, enabling the model to effectively associate image regions with their corresponding anatomical entities. This structured representation improves semantic reasoning, interpretability, and cross-modal alignment, ultimately enhancing the accuracy and clinical relevance of generated reports. Experimental results on IU X-Ray and MIMIC-CXR datasets demonstrate that A3Net significantly improves both visual perception and text generation quality. Our code is available at \href{https://github.com/Vinh-AI/A3Net}{GitHub}.

arxiv情報

著者 Quang Vinh Nguyen,Minh Duc Nguyen,Thanh Hoang Son Vo,Hyung-Jeong Yang,Soo-Hyung Kim
発行日 2025-05-12 15:54:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク