CTT-Net: A Multi-view Cross-token Transformer for Cataract Postoperative Visual Acuity Prediction

要約

手術は、視力 (VA) 障害を持つ白内障患者の唯一の実行可能な治療法です。
臨床的には、白内障手術の必要性を評価するために、多視点光コヒーレンストモグラフィー (OCT) 画像を分析することにより、手術前に術後の VA を正確に予測することが非常に必要です。
残念ながら、眼底の状態が複雑であるため、医療専門家にとって術後の VA を判断することは依然として困難です。
近年、この問題に対する深層学習手法が開発されました。
効果的ではありますが、これらの方法は、マルチビュー OCT 画像間の潜在的な関係を効率的に調査しない、臨床的事前知識 (術前の VA 値など) の重要な役割を無視する、不足している回帰ベースの指標のみを使用するなど、いくつかの問題に直面しています。
参照。
この論文では、マルチビューOCT画像と術前VAの両方を分析することにより、術後VA予測のための新しいクロストークントランスフォーマーネットワーク(CTT-Net)を提案します。
OCT画像のマルチビュー機能を効果的に融合するために、冗長/不必要な注意の流れを制限できるクロストークン注意を開発します。
さらに、術前の VA 値を利用して、術後の VA 予測のためのより多くの情報を提供し、ビュー間の融合を容易にします。
さらに、回帰メトリックのみを使用して制限を回避し、モデルのパフォーマンスを向上させ、VA 回復をより十分に評価するために、補助的な分類損失を設計します。
CTT-Net を評価するために、共同病院から収集したマルチビュー OCT 画像データセットを構築します。
一連の広範な実験により、さまざまなメトリックで既存の方法と比較して、モデルの有効性が検証されます。
コードは https://github.com/wjh892521292/Cataract OCT で入手できます。

要約(オリジナル)

Surgery is the only viable treatment for cataract patients with visual acuity (VA) impairment. Clinically, to assess the necessity of cataract surgery, accurately predicting postoperative VA before surgery by analyzing multi-view optical coherence tomography (OCT) images is crucially needed. Unfortunately, due to complicated fundus conditions, determining postoperative VA remains difficult for medical experts. Deep learning methods for this problem were developed in recent years. Although effective, these methods still face several issues, such as not efficiently exploring potential relations between multi-view OCT images, neglecting the key role of clinical prior knowledge (e.g., preoperative VA value), and using only regression-based metrics which are lacking reference. In this paper, we propose a novel Cross-token Transformer Network (CTT-Net) for postoperative VA prediction by analyzing both the multi-view OCT images and preoperative VA. To effectively fuse multi-view features of OCT images, we develop cross-token attention that could restrict redundant/unnecessary attention flow. Further, we utilize the preoperative VA value to provide more information for postoperative VA prediction and facilitate fusion between views. Moreover, we design an auxiliary classification loss to improve model performance and assess VA recovery more sufficiently, avoiding the limitation by only using the regression metrics. To evaluate CTT-Net, we build a multi-view OCT image dataset collected from our collaborative hospital. A set of extensive experiments validate the effectiveness of our model compared to existing methods in various metrics. Code is available at: https://github.com/wjh892521292/Cataract OCT.

arxiv情報

著者 Jinhong Wang,Jingwen Wang,Tingting Chen,Wenhao Zheng,Zhe Xu,Xingdi Wu,Wen Xu,Haochao Ying,Danny Chen,Jian Wu
発行日 2022-12-12 09:39:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク