Spatiotemporal Feature Learning Based on Two-Step LSTM and Transformer for CT Scans

要約

コンピュータ断層撮影(CT)画像は、様々な病気の診断に非常に実用的であると考えられます。しかし、CTスキャンの解像度やスライス数は機械とその設定によって決まるため、CT画像の性質はさらに多様である。従来のディープラーニングモデルは、入力データの形状が一定であることがディープニューラルネットワークの本質的な要件であるため、このような多様なデータを刻むことが困難であった。本論文では、COVID-19の症状分類に対して、この問題を徹底的にくすぐる、新規で効果的な2段階アプローチを提案します。まず、従来の基幹ネットワークにより、CTスキャン用の各スライスの意味的な特徴埋め込みを抽出する。次に、長短記憶(LSTM)とTransformerベースのサブネットワークを提案し、時間的特徴学習を扱うことで、時空間的特徴表現学習を導く。このように、提案する2段階LSTMモデルは、オーバーフィッティングを防止し、かつ性能を向上させることができる。包括的な実験により、提案する2ステップ法は優れた性能を示すだけでなく、互いに補い合うことができることが明らかになった。具体的には、2段階LSTMモデルは偽陰性率が低く、2段階Swinモデルは偽陽性率が低いことがわかった。以上のことから、実世界のアプリケーションにおいて、より安定的かつ有望な性能を得るために、モデルアンサンブルを採用することが示唆される。

要約(オリジナル)

Computed tomography (CT) imaging could be very practical for diagnosing various diseases. However, the nature of the CT images is even more diverse since the resolution and number of the slices of a CT scan are determined by the machine and its settings. Conventional deep learning models are hard to tickle such diverse data since the essential requirement of the deep neural network is the consistent shape of the input data. In this paper, we propose a novel, effective, two-step-wise approach to tickle this issue for COVID-19 symptom classification thoroughly. First, the semantic feature embedding of each slice for a CT scan is extracted by conventional backbone networks. Then, we proposed a long short-term memory (LSTM) and Transformer-based sub-network to deal with temporal feature learning, leading to spatiotemporal feature representation learning. In this fashion, the proposed two-step LSTM model could prevent overfitting, as well as increase performance. Comprehensive experiments reveal that the proposed two-step method not only shows excellent performance but also could be compensated for each other. More specifically, the two-step LSTM model has a lower false-negative rate, while the 2-step Swin model has a lower false-positive rate. In summary, it is suggested that the model ensemble could be adopted for more stable and promising performance in real-world applications.

arxiv情報

著者 Chih-Chung Hsu,Chi-Han Tsai,Guan-Lin Chen,Sin-Di Ma,Shen-Chieh Tai
発行日 2022-07-04 16:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク