要約
先天性心疾患(CHD)は、中国で最も一般的な先天異常であり、新生児死亡の主な原因です。
臨床診断は、5 つのビューから選択した 2D キーフレームに基づいて行うことができます。
マルチビュー データの利用が制限されているため、ほとんどの手法は不十分な単一ビュー分析に依存する必要があります。
この研究では、実用的なエンドツーエンドのフレームワークを使用して、多視点心エコー図を自動的に分析することを提案します。
疾患ラベルと標準ビューのキーフレーム ラベルの両方を使用して、1,308 人の被験者 (正常対照、心室中隔欠損 (VSD) 患者、心房中隔欠損 (ASD) 患者を含む) の 5 ビュー心エコー図ビデオ記録を収集します。
深さ方向に分離可能な畳み込みベースのマルチチャネルネットワークを採用し、ネットワークパラメータを大幅に削減します。
また、ポジティブなトレーニング サンプルを増やすことで、不均衡なクラスの問題にもアプローチします。
当社の 2D キーフレーム モデルは、CHD または陰性サンプルを 95.4\% の精度で診断でき、陰性、VSD または ASD 分類では 92.3\% の精度で診断できます。
実際の実装におけるキーフレーム選択の作業をさらに軽減するために、生のビデオ データを直接探索する適応型ソフト アテンション スキームを提案します。
ビデオ内の任意のフレーム数の情報を融合するための 4 種類のニューラル集合手法を体系的に研究します。
さらに、ビュー検出モジュールを使用すると、システムはビュー記録がなくても動作できます。
当社のビデオベースのモデルは、収集された 2D ビデオ テスト セットで 93.9\% (二値分類)、および 92.1\% (3 クラス分類) の精度で診断できます。テスト時にキーフレームの選択や注釈の表示は必要ありません。
。
詳細なアブレーション研究と解釈可能性分析が提供されます。
要約(オリジナル)
Congenital heart disease (CHD) is the most common birth defect and the leading cause of neonate death in China. Clinical diagnosis can be based on the selected 2D key-frames from five views. Limited by the availability of multi-view data, most methods have to rely on the insufficient single view analysis. This study proposes to automatically analyze the multi-view echocardiograms with a practical end-to-end framework. We collect the five-view echocardiograms video records of 1308 subjects (including normal controls, ventricular septal defect (VSD) patients and atrial septal defect (ASD) patients) with both disease labels and standard-view key-frame labels. Depthwise separable convolution-based multi-channel networks are adopted to largely reduce the network parameters. We also approach the imbalanced class problem by augmenting the positive training samples. Our 2D key-frame model can diagnose CHD or negative samples with an accuracy of 95.4\%, and in negative, VSD or ASD classification with an accuracy of 92.3\%. To further alleviate the work of key-frame selection in real-world implementation, we propose an adaptive soft attention scheme to directly explore the raw video data. Four kinds of neural aggregation methods are systematically investigated to fuse the information of an arbitrary number of frames in a video. Moreover, with a view detection module, the system can work without the view records. Our video-based model can diagnose with an accuracy of 93.9\% (binary classification), and 92.1\% (3-class classification) in a collected 2D video testing set, which does not need key-frame selection and view annotation in testing. The detailed ablation study and the interpretability analysis are provided.
arxiv情報
著者 | Jing Wang,Xiaofeng Liu,Fangyun Wang,Lin Zheng,Fengqiao Gao,Hanwen Zhang,Xin Zhang,Wanqing Xie,Binbin Wang |
発行日 | 2023-11-30 18:37:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google