Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation

要約

データ駆動型ニューラルネットワークを使用した眼科レポートの自動生成は、臨床診療において大きな可能性を秘めています。
レポートを書くとき、眼科医は事前の臨床知識で推論を行います。
この知識は、以前の医療レポート生成方法では無視されてきました。
専門家の知識を組み込む機能をモデルに与えるために、眼科レポート生成(ORG)用のクロスモーダル臨床グラフトランスフォーマー(CGT)を提案します。この場合、臨床関係トリプルが事前知識として視覚的特徴に注入され、デコード手順が実行されます。

ただし、2つの主要な一般的なナレッジノイズ(KN)の問題が、モデルの有効性に影響を与える可能性があります。
1)UMLSなどの既存の一般的な生物医学知識ベースは、レポートの特定のコンテキストと言語に有意義に一致しない可能性があり、知識注入の有用性が制限されます。
2)あまりにも多くの知識を組み込むと、視覚的特徴が正しい意味から逸れる可能性があります。
これらの制限を克服するために、自然言語処理に基づく自動情報抽出スキームを設計して、ドメイン内のトレーニングレポートから直接臨床エンティティと関係を取得します。
一連の眼科画像が与えられると、CGTは最初に臨床グラフからサブグラフを復元し、復元されたトリプルを視覚的特徴に注入します。
次に、知識の影響を制限するために、エンコード手順中に可視マトリックスが使用されます。
最後に、レポートは、Transformerデコーダーを介してエンコードされたクロスモーダル機能によって予測されます。
大規模なFFA-IRベンチマークに関する広範な実験は、提案されたCGTが以前のベンチマーク手法を上回り、最先端のパフォーマンスを達成できることを示しています。

要約(オリジナル)

Automatic generation of ophthalmic reports using data-driven neural networks has great potential in clinical practice. When writing a report, ophthalmologists make inferences with prior clinical knowledge. This knowledge has been neglected in prior medical report generation methods. To endow models with the capability of incorporating expert knowledge, we propose a Cross-modal clinical Graph Transformer (CGT) for ophthalmic report generation (ORG), in which clinical relation triples are injected into the visual features as prior knowledge to drive the decoding procedure. However, two major common Knowledge Noise (KN) issues may affect models’ effectiveness. 1) Existing general biomedical knowledge bases such as the UMLS may not align meaningfully to the specific context and language of the report, limiting their utility for knowledge injection. 2) Incorporating too much knowledge may divert the visual features from their correct meaning. To overcome these limitations, we design an automatic information extraction scheme based on natural language processing to obtain clinical entities and relations directly from in-domain training reports. Given a set of ophthalmic images, our CGT first restores a sub-graph from the clinical graph and injects the restored triples into visual features. Then visible matrix is employed during the encoding procedure to limit the impact of knowledge. Finally, reports are predicted by the encoded cross-modal features via a Transformer decoder. Extensive experiments on the large-scale FFA-IR benchmark demonstrate that the proposed CGT is able to outperform previous benchmark methods and achieve state-of-the-art performances.

arxiv情報

著者 Mingjie Li,Wenjia Cai,Karin Verspoor,Shirui Pan,Xiaodan Liang,Xiaojun Chang
発行日 2022-06-04 13:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク