要約
本論文では、USガイド脊椎手術のための骨のセグメンテーションとレジストレーションを可能にするために、利用できない、または不十分な臨床USデータと意味のあるアノテーションに関する問題に取り組むことを目的としている。USは脊髄手術の標準的なパラダイムではないが、術中の臨床USデータの少なさは、ニューラルネットワークを学習する上で克服できないボトルネックである。また、US画像の特性上、骨表面を明確にアノテーションすることが困難であり、学習したニューラルネットワークが細部にまで注意を払うことができない。そこで我々は、診断用CTボリュームからリアルなUS画像を合成するIn silico骨USシミュレーションフレームワークを提案する。このフレームワークでは、診断用CT画像からリアルなUS画像を合成し、このシミュレーション画像を用いて、脊髄超音波診断のための高精度な骨セグメンテーションを実現する軽量な視覚変換モデルを学習する。検証実験では、放射線を用いないUSガイド下でのペディクルス埋入手順を容易にするため、診断用脊髄CTボリュームからリアルなUSシミュレーションを実施した。骨セグメンテーションのトレーニングに使用した場合、Chamfer距離は0.599mmを達成し、CT-USレジストレーションに使用した場合、骨セグメンテーション精度はDiceで0.93を達成し、セグメント点群に基づくレジストレーション精度は0.13~3.37mmを合併症なしに達成した。骨US画像は中界面で強いエコーを示すが、小さな近傍情報に依存するだけでは、薄い界面と骨表面の区別がつかないモデルを可能にする可能性がある。そこで、長距離コントラスト学習モジュールを用いて、候補とその周辺画素との長距離コントラストを十分に探索することを提案する。
要約(オリジナル)
This paper aims to tackle the issues on unavailable or insufficient clinical US data and meaningful annotation to enable bone segmentation and registration for US-guided spinal surgery. While the US is not a standard paradigm for spinal surgery, the scarcity of intra-operative clinical US data is an insurmountable bottleneck in training a neural network. Moreover, due to the characteristics of US imaging, it is difficult to clearly annotate bone surfaces which causes the trained neural network missing its attention to the details. Hence, we propose an In silico bone US simulation framework that synthesizes realistic US images from diagnostic CT volume. Afterward, using these simulated bone US we train a lightweight vision transformer model that can achieve accurate and on-the-fly bone segmentation for spinal sonography. In the validation experiments, the realistic US simulation was conducted by deriving from diagnostic spinal CT volume to facilitate a radiation-free US-guided pedicle screw placement procedure. When it is employed for training bone segmentation task, the Chamfer distance achieves 0.599mm; when it is applied for CT-US registration, the associated bone segmentation accuracy achieves 0.93 in Dice, and the registration accuracy based on the segmented point cloud is 0.13~3.37mm in a complication-free manner. While bone US images exhibit strong echoes at the medium interface, it may enable the model indistinguishable between thin interfaces and bone surfaces by simply relying on small neighborhood information. To overcome these shortcomings, we propose to utilize a Long-range Contrast Learning Module to fully explore the Long-range Contrast between the candidates and their surrounding pixels.
arxiv情報
著者 | Ang Li,Jiayi Han,Yongjian Zhao,Keyu Li,Li Liu |
発行日 | 2023-01-05 07:28:06+00:00 |
arxivサイト | arxiv_id(pdf) |