Realistic Data Generation for 6D Pose Estimation of Surgical Instruments

要約

手術ロボットの自動化は患者の安全性と手術の効率を向上させる可能性がありますが、堅牢な認識アルゴリズムが必要なため実現は困難です。
特に、手術器具の 6D 姿勢推定は、視覚的なフィードバックに基づいた手術手技の自動実行を可能にするために重要です。
近年、教師あり深層学習アルゴリズムは、6D 姿勢推定タスクでますます優れたパフォーマンスを示しています。
ただし、その成功は、注釈付きの大量のデータが利用できるかどうかにかかっています。
家庭および産業環境では、3D コンピュータ グラフィックス ソフトウェアで生成された合成データが、6D ポーズ データセットのアノテーション コストを最小限に抑えるための代替手段として示されています。
ただし、市販のグラフィック ソフトウェアでは、器具と組織のリアルな相互作用を描写する画像を生成するツールが限られているため、この戦略は外科領域にはうまく応用できません。
これらの制限に対処するために、我々は、手術器具の 6D 姿勢推定のための大規模で多様なデータセットの自動生成を可能にする、手術ロボット工学のための改良されたシミュレーション環境を提案します。
改善点としては、自動データ生成パイプラインと改善された手術シーンを開発しました。
私たちのシステムの適用性を示すために、最先端の姿勢推定ネットワークを評価するために使用される、外科用針の姿勢アノテーションを含む 7.5k の画像のデータセットを生成しました。
トレーニングされたモデルは、さまざまなレベルの閉塞を示す困難なデータセットで平均 2.59 mm の並進誤差を取得しました。
これらの結果は、外科ロボット工学アプリケーション向けの新しい視覚アルゴリズムのトレーニングと評価における当社のパイプラインの成功を強調しています。

要約(オリジナル)

Automation in surgical robotics has the potential to improve patient safety and surgical efficiency, but it is difficult to achieve due to the need for robust perception algorithms. In particular, 6D pose estimation of surgical instruments is critical to enable the automatic execution of surgical maneuvers based on visual feedback. In recent years, supervised deep learning algorithms have shown increasingly better performance at 6D pose estimation tasks; yet, their success depends on the availability of large amounts of annotated data. In household and industrial settings, synthetic data, generated with 3D computer graphics software, has been shown as an alternative to minimize annotation costs of 6D pose datasets. However, this strategy does not translate well to surgical domains as commercial graphics software have limited tools to generate images depicting realistic instrument-tissue interactions. To address these limitations, we propose an improved simulation environment for surgical robotics that enables the automatic generation of large and diverse datasets for 6D pose estimation of surgical instruments. Among the improvements, we developed an automated data generation pipeline and an improved surgical scene. To show the applicability of our system, we generated a dataset of 7.5k images with pose annotations of a surgical needle that was used to evaluate a state-of-the-art pose estimation network. The trained model obtained a mean translational error of 2.59mm on a challenging dataset that presented varying levels of occlusion. These results highlight our pipeline’s success in training and evaluating novel vision algorithms for surgical robotics applications.

arxiv情報

著者 Juan Antonio Barragan,Jintan Zhang,Haoying Zhou,Adnan Munawar,Peter Kazanzides
発行日 2024-06-11 14:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク