要約
目的: カテーテルとガイドワイヤーの自律ナビゲーションにより、血管内手術の安全性と有効性が向上し、手術時間とオペレーターの放射線被ばくが削減されます。
遠隔操作ロボットを統合することで、機械的血栓除去術 (MT) など、一刻を争う緊急処置へのアクセスが拡大する可能性があります。
強化学習 (RL) は血管内ナビゲーションにおける可能性を示していますが、その応用は報酬信号がないと課題に直面します。
この研究では、専門家のデモンストレーションを活用して、逆 RL (IRL) を使用して、MT 血管系における自律ナビゲーションの実行可能性を調査します。
方法: この研究では、MT ナビゲーションのためのシミュレーションベースのトレーニングおよび評価環境を確立しました。
IRL を使用して、ガイドワイヤーとカテーテルを移動する際の専門家の行動から報酬関数を推測しました。
私たちはソフト アクター クリティックを利用してさまざまな報酬関数を備えたモデルをトレーニングし、そのパフォーマンスをコンピュータで比較しました。
結果: IRL を使用したナビゲーションの実現可能性を実証しました。
シングルデバイスとデュアルデバイス(つまり、ガイドワイヤ対カテーテルおよびガイドワイヤ)の追跡を評価した場合、どちらの方法もそれぞれ 95% と 96% という高い成功率を達成しました。
しかし、デュアルトラッキングでは両方のデバイスを利用して専門家を模倣しました。
報酬整形を通じて得られた報酬関数を使用してトレーニングした場合、100% の成功率と 22.6 秒の手順時間が得られました。
これは、密な報酬関数 (96%、24.9 秒) および IRL 由来の報酬関数 (48%、59.2 秒) を上回りました。
結論:我々は、IRL を採用することにより、自律的な血管内介入ナビゲーション、特に MT の進歩に貢献しました。
この結果は、報酬シェーピングを使用してモデルをトレーニングする可能性を強調し、MT のアクセシビリティと精度を向上させるための有望な手段を提供します。
私たちは、将来の研究で方法論を多様な解剖学的構造に拡張し、一般化可能性を高めることができると考えています。
要約(オリジナル)
Purpose: Autonomous navigation of catheters and guidewires can enhance endovascular surgery safety and efficacy, reducing procedure times and operator radiation exposure. Integrating tele-operated robotics could widen access to time-sensitive emergency procedures like mechanical thrombectomy (MT). Reinforcement learning (RL) shows potential in endovascular navigation, yet its application encounters challenges without a reward signal. This study explores the viability of autonomous navigation in MT vasculature using inverse RL (IRL) to leverage expert demonstrations. Methods: This study established a simulation-based training and evaluation environment for MT navigation. We used IRL to infer reward functions from expert behaviour when navigating a guidewire and catheter. We utilized soft actor-critic to train models with various reward functions and compared their performance in silico. Results: We demonstrated feasibility of navigation using IRL. When evaluating single versus dual device (i.e. guidewire versus catheter and guidewire) tracking, both methods achieved high success rates of 95% and 96%, respectively. Dual-tracking, however, utilized both devices mimicking an expert. A success rate of 100% and procedure time of 22.6 s were obtained when training with a reward function obtained through reward shaping. This outperformed a dense reward function (96%, 24.9 s) and an IRL-derived reward function (48%, 59.2 s). Conclusions: We have contributed to the advancement of autonomous endovascular intervention navigation, particularly MT, by employing IRL. The results underscore the potential of using reward shaping to train models, offering a promising avenue for enhancing the accessibility and precision of MT. We envisage that future research can extend our methodology to diverse anatomical structures to enhance generalizability.
arxiv情報
著者 | Harry Robertshaw,Lennart Karstensen,Benjamin Jackson,Alejandro Granados,Thomas C. Booth |
発行日 | 2024-06-18 11:00:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google