H-Net: A Multitask Architecture for Simultaneous 3D Force Estimation and Stereo Semantic Segmentation in Intracardiac Catheters

要約

カテーテル治療の成功率は、外科医に提供される感覚データと密接な関係がある。視覚ベースのディープラーニングモデルは、触覚情報と視覚情報の両方をセンサーレスで提供することができ、しかもコスト効率よく製造することができる。限られた計算資源しか持たないデバイスのためのこれらのモデルの複雑さを考慮すると、研究は力の推定とカテーテルのセグメンテーションに別々に焦点を当ててきた。しかし、2つの異なる角度からカテーテルを同時にセグメンテーションし、3Dで加えられた力を推定できる包括的なアーキテクチャは存在しない。このギャップを埋めるために、本研究では、新規で軽量な多入力多出力のエンコーダ・デコーダベースのアーキテクチャを提案する。これは、2つの視点からカテーテルをセグメント化し、x、y、z方向の加えられた力を同時に測定するように設計されている。このネットワークは、バイプレーン透視システムから供給されることを想定した2つの同時X線画像を処理し、異なる角度からのカテーテルのたわみを示す。パラメータを共有する2つの並列サブネットワークを使用し、入力に対応する2つのセグメンテーションマップを出力する。さらに、ステレオビジョンを活用して、カテーテル先端にかかる力を3Dで推定する。このアーキテクチャは、2つの入力チャンネル、セグメンテーション用の2つの分類ヘッド、および力推定用の回帰ヘッドを1つのエンドツーエンド・アーキテクチャとして備えている。すべてのヘッドの出力を評価し、文献と比較した結果、セグメンテーションと力推定の両方で最先端の性能が実証された。筆者らの知る限り、このようなモデルが提案されたのはこれが初めてである。

要約(オリジナル)

The success rate of catheterization procedures is closely linked to the sensory data provided to the surgeon. Vision-based deep learning models can deliver both tactile and visual information in a sensor-free manner, while also being cost-effective to produce. Given the complexity of these models for devices with limited computational resources, research has focused on force estimation and catheter segmentation separately. However, there is a lack of a comprehensive architecture capable of simultaneously segmenting the catheter from two different angles and estimating the applied forces in 3D. To bridge this gap, this work proposes a novel, lightweight, multi-input, multi-output encoder-decoder-based architecture. It is designed to segment the catheter from two points of view and concurrently measure the applied forces in the x, y, and z directions. This network processes two simultaneous X-Ray images, intended to be fed by a biplane fluoroscopy system, showing a catheter’s deflection from different angles. It uses two parallel sub-networks with shared parameters to output two segmentation maps corresponding to the inputs. Additionally, it leverages stereo vision to estimate the applied forces at the catheter’s tip in 3D. The architecture features two input channels, two classification heads for segmentation, and a regression head for force estimation through a single end-to-end architecture. The output of all heads was assessed and compared with the literature, demonstrating state-of-the-art performance in both segmentation and force estimation. To the best of the authors’ knowledge, this is the first time such a model has been proposed

arxiv情報

著者 Pedram Fekri,Mehrdad Zadeh,Javad Dargahi
発行日 2024-12-31 15:55:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, eess.IV パーマリンク