See Detail Say Clear: Towards Brain CT Report Generation via Pathological Clue-driven Representation Learning

要約

脳 CT レポートの生成は、医師による脳疾患の診断を支援するために重要です。
最近の研究は、レポートの一貫性を向上させるために、視覚的およびテキストの病理学的特徴の間の一貫性を処理することに重点を置いています。
ただし、いくつかの課題があります。 1) 冗長な視覚的表現: 3D スキャン内の大量の無関係な領域により、モデルが顕著な視覚的コンテキストを表現できなくなります。
2) シフトされた意味表現: 医療コーパスが限られているため、モデルが学習したテキスト表現を生成層に転送することが困難になります。
この研究では、病理学的手がかり主導型表現学習 (PCRL) モデルを導入し、病理学的手がかりに基づいてクロスモーダル表現を構築し、それらを自然に適応させて正確なレポートを生成します。
具体的には、セグメント化された領域、病理学的実体、レポートテーマの観点から病理学的手がかりを構築し、視覚的な病理学的パターンを完全に把握し、クロスモーダルな特徴表現を学習します。
テキスト生成タスクに表現を適応させるために、タスクに合わせた命令を備えた統一大規模言語モデル (LLM) を使用して、表現学習とレポート生成の間のギャップを埋めます。
これらの巧妙に作成された命令により、LLM をタスク間で柔軟に微調整し、レポート生成のためのセマンティック表現をスムーズに転送できるようになります。
実験により、私たちの方法が以前の方法よりも優れており、SoTA のパフォーマンスを達成できることが実証されています。
私たちのコードは「https://github.com/Chauncey-Jheng/PCRL-MRG」で入手できます。

要約(オリジナル)

Brain CT report generation is significant to aid physicians in diagnosing cranial diseases. Recent studies concentrate on handling the consistency between visual and textual pathological features to improve the coherence of report. However, there exist some challenges: 1) Redundant visual representing: Massive irrelevant areas in 3D scans distract models from representing salient visual contexts. 2) Shifted semantic representing: Limited medical corpus causes difficulties for models to transfer the learned textual representations to generative layers. This study introduces a Pathological Clue-driven Representation Learning (PCRL) model to build cross-modal representations based on pathological clues and naturally adapt them for accurate report generation. Specifically, we construct pathological clues from perspectives of segmented regions, pathological entities, and report themes, to fully grasp visual pathological patterns and learn cross-modal feature representations. To adapt the representations for the text generation task, we bridge the gap between representation learning and report generation by using a unified large language model (LLM) with task-tailored instructions. These crafted instructions enable the LLM to be flexibly fine-tuned across tasks and smoothly transfer the semantic representation for report generation. Experiments demonstrate that our method outperforms previous methods and achieves SoTA performance. Our code is available at ‘https://github.com/Chauncey-Jheng/PCRL-MRG’.

arxiv情報

著者 Chengxin Zheng,Junzhong Ji,Yanzhao Shi,Xiaodan Zhang,Liangqiong Qu
発行日 2024-10-01 10:42:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク