World Models for General Surgical Grasping

要約

手術ロボット用のインテリジェント視覚制御システムは、システムの外乱に対して堅牢であると同時に、未知の多様な物体に適応する必要があります。
以前の方法は、主に姿勢推定と特徴追跡に依存していたため、これらの要件を満たしていませんでした。
我々は、ワールドモデルベースの深層強化学習フレームワーク「Grasp Anything for Surgery」(GAS)を提案します。これは、外科手術の把握のためのピクセルレベルの視覚運動ポリシーを学習し、汎用性と堅牢性の両方を強化します。
特に、オブジェクトのサイズの経験的な事前分布に基づいて、リジッド リンク オブジェクトの不正確な領域の深度ピクセルの値と不確実性を推定する新しい方法が提案されています。
タスク オブジェクトの深度イメージとマスク イメージは両方とも、マスク領域を動的にズームインすることにより、単一のコンパクトな 3 チャネル イメージ (サイズ: 64x64x3) にエンコードされ、情報損失が最小限に抑えられます。
学習されたコントローラーの有効性は、シミュレーションと実際のロボットで広範囲に評価されます。
当社の学習された視覚運動ポリシーは、i) 構造化されていない現実世界の手術環境における 5 種類のターゲット把握物体とロボット グリッパーを含む目に見えない物体、および ii) 知覚と制御の障害を扱います。
我々は、複雑な手術シーンにおいて実際のロボット上の異なるロボットグリッパーを使用して多様な手術対象物を把握する統合手術制御システムを実現した最初の研究であることに注意してください(平均成功率:69%)。
また、当社のシステムは、背景の変動、ターゲットの外乱、カメラのポーズの変動、運動学的制御エラー、画像ノイズ、掴んだターゲットオブジェクトがグリッパーから落ちた後の再掴みを含む 6 つの条件にわたって優れたロバスト性を示しています。
ビデオとコードはプロジェクト ページ https://linhongbin.github.io/gas/ でご覧いただけます。

要約(オリジナル)

Intelligent vision control systems for surgical robots should adapt to unknown and diverse objects while being robust to system disturbances. Previous methods did not meet these requirements due to mainly relying on pose estimation and feature tracking. We propose a world-model-based deep reinforcement learning framework ‘Grasp Anything for Surgery’ (GAS), that learns a pixel-level visuomotor policy for surgical grasping, enhancing both generality and robustness. In particular, a novel method is proposed to estimate the values and uncertainties of depth pixels for a rigid-link object’s inaccurate region based on the empirical prior of the object’s size; both depth and mask images of task objects are encoded to a single compact 3-channel image (size: 64x64x3) by dynamically zooming in the mask regions, minimizing the information loss. The learned controller’s effectiveness is extensively evaluated in simulation and in a real robot. Our learned visuomotor policy handles: i) unseen objects, including 5 types of target grasping objects and a robot gripper, in unstructured real-world surgery environments, and ii) disturbances in perception and control. Note that we are the first work to achieve a unified surgical control system that grasps diverse surgical objects using different robot grippers on real robots in complex surgery scenes (average success rate: 69%). Our system also demonstrates significant robustness across 6 conditions including background variation, target disturbance, camera pose variation, kinematic control error, image noise, and re-grasping after the gripped target object drops from the gripper. Videos and codes can be found on our project page: https://linhongbin.github.io/gas/.

arxiv情報

著者 Hongbin Lin,Bin Li,Chun Wai Wong,Juan Rojas,Xiangyu Chu,Kwok Wai Samuel Au
発行日 2024-05-28 08:11:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク