要約
タイトル:放射線診断レポート生成のためのマルチレベル意味的アラインメントを統合、調整、そして改良する
要約:
– 自動放射線診断レポート生成は、放射線科医の労力を軽減するという実用的な価値から、広範な研究関心を集めています。
– しかしながら、画像(例:胸部X線)とその関連するレポートの間のグローバルな対応と、画像パッチとキーワードの間のローカルなアライメントを同時に確立することは、依然として課題が残っています。
– そこで、我々は「統合、調整、そして改良(UAR)」アプローチを提案し、マルチレベルクロスモーダルアライメントを学習するために3つの新しいモジュールを導入します。
– これらのモジュールは、「潜在空間統一器(LSU)」、「クロスモーダル表現アライナー(CRA)」、そして「テキスト・イメージリファイナー(TIR)」です。
– 特に、LSUは多モーダルデータを離散的なトークンに統一し、共有ネットワークでモダリティ間の共通知識を柔軟に学習できるようにします。
– CRAは、正規直交基底とデュアルゲートメカニズムを用いて識別的な特徴を学習し、トリプレットコントラスティブロスの下で視覚的およびテキスト表現をグローバルにアラインメントします。
– TIRは、学習可能なマスクを使用して、テキストと画像のアテンションをキャリブレーションすることにより、トークンレベルのローカルアライメントを向上させます。
– 加えて、我々はUARが異なるレベルでクロスモーダルアライメントを段階的に把握するための2段階のトレーニング手順を設計し、放射線科医のワークフローを模倣します:まず文を書き、そして単語をチェックします。
– IU-XrayとMIMIC-CXRのベンチマークデータセットに対する広範な実験と分析は、UARが多様な最先端の方法に優れていることを示しています。
要約(オリジナル)
Automatic radiology report generation has attracted enormous research interest due to its practical value in reducing the workload of radiologists. However, simultaneously establishing global correspondences between the image (e.g., Chest X-ray) and its related report and local alignments between image patches and keywords remains challenging. To this end, we propose an Unify, Align and then Refine (UAR) approach to learn multi-level cross-modal alignments and introduce three novel modules: Latent Space Unifier (LSU), Cross-modal Representation Aligner (CRA) and Text-to-Image Refiner (TIR). Specifically, LSU unifies multimodal data into discrete tokens, making it flexible to learn common knowledge among modalities with a shared network. The modality-agnostic CRA learns discriminative features via a set of orthonormal basis and a dual-gate mechanism first and then globally aligns visual and textual representations under a triplet contrastive loss. TIR boosts token-level local alignment via calibrating text-to-image attention with a learnable mask. Additionally, we design a two-stage training procedure to make UAR gradually grasp cross-modal alignments at different levels, which imitates radiologists’ workflow: writing sentence by sentence first and then checking word by word. Extensive experiments and analyses on IU-Xray and MIMIC-CXR benchmark datasets demonstrate the superiority of our UAR against varied state-of-the-art methods.
arxiv情報
著者 | Yaowei Li,Bang Yang,Xuxin Cheng,Zhihong Zhu,Hongxiang Li,Yuexian Zou |
発行日 | 2023-04-05 08:14:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI