Trackerless freehand ultrasound with sequence modelling and auxiliary transformation over past and future frames

要約

トラッカーを用いない3次元(3D)フリーハンド超音波(US)再構成は、多くの臨床応用において、2次元またはトラッキングされた対応するものよりも有利である可能性がある。本論文では、フィードフォワードとリカレントニューラルネットワーク(RNN)を用いて、過去と未来の2次元画像からUSフレーム間の3次元空間変換を推定することを提案する。時間的に利用可能なフレームを用い、さらにマルチタスク学習アルゴリズムにより、フレーム間の多数の補助的な変換予測タスクを利用することを提案する。ボランティア研究で19人のボランティアの38の前腕の228スキャンから取得した40,000以上のUSフレームを用いて、光学トラッカーからのグランドトゥルースに基づき、フレーム予測精度、ボリューム再構成オーバーラップ、累積トラッキングエラー、最終ドリフトにより、ホールドアウトテスト性能を定量化する。その結果、時間的・空間的に相関のある入力フレームと出力変換をモデル化することの重要性が示され、過去や未来のフレームを追加することでさらに改善されることが示された。最も性能の良いモデルは、20フレーム/秒(fps)で10フレーム未満の間隔を持つ、適度な間隔のフレーム間の変換を予測することと関連していた。LSTMベースのRNNの有無にかかわらず、予測された変換から1秒以上離れたフレームを追加しても、ほとんど利点は観察されませんでした。興味深いことに、提案するアプローチでは、変換を構成する際の一貫性を促す、または累積誤差を最小化する明示的なシーケンス内損失はもはや必要ないかもしれません。実装コードとボランティアデータは、再現性とさらなる研究のために一般に公開される予定です。

要約(オリジナル)

Three-dimensional (3D) freehand ultrasound (US) reconstruction without a tracker can be advantageous over its two-dimensional or tracked counterparts in many clinical applications. In this paper, we propose to estimate 3D spatial transformation between US frames from both past and future 2D images, using feed-forward and recurrent neural networks (RNNs). With the temporally available frames, a further multi-task learning algorithm is proposed to utilise a large number of auxiliary transformation-predicting tasks between them. Using more than 40,000 US frames acquired from 228 scans on 38 forearms of 19 volunteers in a volunteer study, the hold-out test performance is quantified by frame prediction accuracy, volume reconstruction overlap, accumulated tracking error and final drift, based on ground-truth from an optical tracker. The results show the importance of modelling the temporal-spatially correlated input frames as well as output transformations, with further improvement owing to additional past and/or future frames. The best performing model was associated with predicting transformation between moderately-spaced frames, with an interval of less than ten frames at 20 frames per second (fps). Little benefit was observed by adding frames more than one second away from the predicted transformation, with or without LSTM-based RNNs. Interestingly, with the proposed approach, explicit within-sequence loss that encourages consistency in composing transformations or minimises accumulated error may no longer be required. The implementation code and volunteer data will be made publicly available ensuring reproducibility and further research.

arxiv情報

著者 Qi Li,Ziyi Shen,Qian Li,Dean C Barratt,Thomas Dowrick,Matthew J Clarkson,Tom Vercauteren,Yipeng Hu
発行日 2022-11-09 13:18:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク