Enhancing Multi-Robot Semantic Navigation Through Multimodal Chain-of-Thought Score Collaboration

要約

人間がセマンティックな知識をどのように活用して慣れ親しんでいない環境を探求し、ナビゲーションの方向を決定するかを理解することは、ハウスサービスのマルチロボットシステムにとって重要です。
以前の方法は、主にシングルロボット集中計画戦略に焦点を当てており、探査効率が厳しく制限されていました。
最近の研究では、複数のロボットの分散化計画戦略が検討されており、個別の計画モデルを各ロボットに割り当てていますが、これらのアプローチはコミュニケーションコストを見落としていることがよくあります。
この作業では、複数のロボットの共同セマンティックナビゲーションを計画するためにマルチモーダルチェーンのチェーンを利用するモジュール式アプローチであるマルチモーダルチェーンコナビゲーション(MCOCONAV)を提案します。
McOconavは、視覚的知覚とビジョン言語モデル(VLM)を組み合わせて、確率的スコアリングを通じて探査値を評価し、時間コストを削減し、安定した出力を達成します。
さらに、グローバルセマンティックマップは通信ブリッジとして使用され、観察結果を統合しながら通信オーバーヘッドを最小限に抑えます。
探査の傾向を反映するスコアに導かれ、ロボットはこのマップを利用して、新しいフロンティアポイントを探索するか、履歴ノードを再訪するかを評価します。
HM3D_V0.2およびMP3Dの実験は、アプローチの有効性を示しています。
私たちのコードは、https://github.com/frankzxshen/mcoconav.gitで入手できます。

要約(オリジナル)

Understanding how humans cooperatively utilize semantic knowledge to explore unfamiliar environments and decide on navigation directions is critical for house service multi-robot systems. Previous methods primarily focused on single-robot centralized planning strategies, which severely limited exploration efficiency. Recent research has considered decentralized planning strategies for multiple robots, assigning separate planning models to each robot, but these approaches often overlook communication costs. In this work, we propose Multimodal Chain-of-Thought Co-Navigation (MCoCoNav), a modular approach that utilizes multimodal Chain-of-Thought to plan collaborative semantic navigation for multiple robots. MCoCoNav combines visual perception with Vision Language Models (VLMs) to evaluate exploration value through probabilistic scoring, thus reducing time costs and achieving stable outputs. Additionally, a global semantic map is used as a communication bridge, minimizing communication overhead while integrating observational results. Guided by scores that reflect exploration trends, robots utilize this map to assess whether to explore new frontier points or revisit history nodes. Experiments on HM3D_v0.2 and MP3D demonstrate the effectiveness of our approach. Our code is available at https://github.com/FrankZxShen/MCoCoNav.git.

arxiv情報

著者 Zhixuan Shen,Haonan Luo,Kexun Chen,Fengmao Lv,Tianrui Li
発行日 2025-05-22 09:42:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Enhancing Multi-Robot Semantic Navigation Through Multimodal Chain-of-Thought Score Collaboration はコメントを受け付けていません

Unified Multi-Rate Model Predictive Control for a Jet-Powered Humanoid Robot

要約

ジェット駆動のフライングヒューマノイドロボットの新しいモデル予測制御(MPC)フレームワークを提案します。
コントローラーは、飛行ダイナミクスを表す線形化された重心運動量モデルに基づいており、ジェット推進のゆっくりと非線形のダイナミクスを明示的に説明する2次非線形モデルで増強されます。
重要な貢献は、ジェットダイナミクスを予測モデルに直接埋め込んでいる間、ロボットのジョイントとジェットエンジンの異なる作動率を処理する多価MPC製剤の導入です。
ジェット駆動のヒューマノイドロボットアイアンカブを使用してフレームワークを検証し、ムホコでシミュレーションを実行しました。
シミュレーション結果は、ロボットが外部外障害から回復し、安定した非突然の飛行操作を実行する能力を示しており、提案されたアプローチの有効性を検証します。

要約(オリジナル)

We propose a novel Model Predictive Control (MPC) framework for a jet-powered flying humanoid robot. The controller is based on a linearised centroidal momentum model to represent the flight dynamics, augmented with a second-order nonlinear model to explicitly account for the slow and nonlinear dynamics of jet propulsion. A key contribution is the introduction of a multi-rate MPC formulation that handles the different actuation rates of the robot’s joints and jet engines while embedding the jet dynamics directly into the predictive model. We validated the framework using the jet-powered humanoid robot iRonCub, performing simulations in Mujoco; the simulation results demonstrate the robot’s ability to recover from external disturbances and perform stable, non-abrupt flight manoeuvres, validating the effectiveness of the proposed approach.

arxiv情報

著者 Davide Gorbani,Giuseppe L’Erario,Hosameldin Awadalla Omer Mohamed,Daniele Pucci
発行日 2025-05-22 10:06:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Unified Multi-Rate Model Predictive Control for a Jet-Powered Humanoid Robot はコメントを受け付けていません

Human-like Semantic Navigation for Autonomous Driving using Knowledge Representation and Large Language Models

要約

自動運転車で完全な自動化を達成することは、特にナビゲーションがリアルタイムの適応性を必要とする動的な都市環境では、課題のままです。
既存のシステムは、事前に定義された地図作成情報に大きく依存しているため、道路レイアウト、自発的な迂回路、または不足しているマップデータの予測不可能な変更に直面したときに航海計画を処理するのに苦労しています。
この作業では、非公式のナビゲーションの指示を構造化された論理ベースの推論に変換することにより、大規模な言語モデルの使用を検討して回答セットプログラミングルールを生成します。
ASPは非モノトニックな推論を提供し、自動運転車が事前定義されたマップに依存せずに進化するシナリオに適応できるようにします。
LLMSが現実世界の都市の駆動ロジックを正式な知識表現にエンコードするASP制約を生成する実験的評価を提示します。
非公式のナビゲーション命令の論理ルールへの翻訳を自動化することにより、私たちの方法は、自律的なナビゲーションの適応性と説明可能性を向上させます。
結果は、LLM駆動型ASPルール生成がセマンティックベースの意思決定をサポートしており、人間がナビゲーションの意図を伝える方法と密接に一致する動的ナビゲーション計画のための説明可能なフレームワークを提供することを示しています。

要約(オリジナル)

Achieving full automation in self-driving vehicles remains a challenge, especially in dynamic urban environments where navigation requires real-time adaptability. Existing systems struggle to handle navigation plans when faced with unpredictable changes in road layouts, spontaneous detours, or missing map data, due to their heavy reliance on predefined cartographic information. In this work, we explore the use of Large Language Models to generate Answer Set Programming rules by translating informal navigation instructions into structured, logic-based reasoning. ASP provides non-monotonic reasoning, allowing autonomous vehicles to adapt to evolving scenarios without relying on predefined maps. We present an experimental evaluation in which LLMs generate ASP constraints that encode real-world urban driving logic into a formal knowledge representation. By automating the translation of informal navigation instructions into logical rules, our method improves adaptability and explainability in autonomous navigation. Results show that LLM-driven ASP rule generation supports semantic-based decision-making, offering an explainable framework for dynamic navigation planning that aligns closely with how humans communicate navigational intent.

arxiv情報

著者 Augusto Luis Ballardini,Miguel Ángel Sotelo
発行日 2025-05-22 10:32:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Human-like Semantic Navigation for Autonomous Driving using Knowledge Representation and Large Language Models はコメントを受け付けていません

ManipLVM-R1: Reinforcement Learning for Reasoning in Embodied Manipulation with Large Vision-Language Models

要約

大規模なビジョン言語モデル(LVLMS)は、最近、シーンの知覚と指示のための言語のためのビジョンを活用することにより、最近高度なロボット操作を行っています。
ただし、既存の方法は、費用のかかる人間が注目したトレーニングデータセットに大きく依存しており、一般化を制限し、ドメイン外(OOD)シナリオで苦労し、実世界の適応性を低下させます。
これらの課題に対処するために、検証可能な報酬(RLVR)を使用して従来の監督を補強学習に置き換える新しい強化学習フレームワークであるMANIPLVM-R1を提案します。
タスクに合わせた結果を直接最適化することにより、私たちの方法は、費用のかかる注釈への依存を除去しながら、一般化と物理的推論を強化します。
具体的には、主要なロボット操作サブタスクをターゲットにした2つのルールベースの報酬関数を設計します:相互作用領域のローカリゼーションを強化するためのアフォーダンス認識報酬と、アクションパスの物理的な妥当性を確保するための軌跡の一致報酬。
これらの報酬は、即時のフィードバックを提供し、空間論理的制約を課し、モデルが浅いパターンのマッチングを超えて、物理的な相互作用に関するより深く、より体系的な推論を学ぶことを奨励します。

要約(オリジナル)

Large Vision-Language Models (LVLMs) have recently advanced robotic manipulation by leveraging vision for scene perception and language for instruction following. However, existing methods rely heavily on costly human-annotated training datasets, which limits their generalization and causes them to struggle in out-of-domain (OOD) scenarios, reducing real-world adaptability. To address these challenges, we propose ManipLVM-R1, a novel reinforcement learning framework that replaces traditional supervision with Reinforcement Learning using Verifiable Rewards (RLVR). By directly optimizing for task-aligned outcomes, our method enhances generalization and physical reasoning while removing the dependence on costly annotations. Specifically, we design two rule-based reward functions targeting key robotic manipulation subtasks: an Affordance Perception Reward to enhance localization of interaction regions, and a Trajectory Match Reward to ensure the physical plausibility of action paths. These rewards provide immediate feedback and impose spatial-logical constraints, encouraging the model to go beyond shallow pattern matching and instead learn deeper, more systematic reasoning about physical interactions.

arxiv情報

著者 Zirui Song,Guangxian Ouyang,Mingzhe Li,Yuheng Ji,Chenxi Wang,Zixiang Xu,Zeyu Zhang,Xiaoqing Zhang,Qian Jiang,Zhenhao Chen,Zhongzhi Li,Rui Yan,Xiuying Chen
発行日 2025-05-22 10:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ManipLVM-R1: Reinforcement Learning for Reasoning in Embodied Manipulation with Large Vision-Language Models はコメントを受け付けていません

Robo-Platform: A Robotic System for Recording Sensors and Controlling Robots

要約

モバイルスマートフォンは、カメラ、IMUS、GNSS測定ユニット、ロボット工学プロジェクトに必要なワイヤレスおよび有線通信チャネルなどのセンサーをコンパクトに提供しています。
これらは手頃な価格でポータブルでプログラム可能であるため、テスト、データ収集、モバイルロボットの制御、その他多くのロボットアプリケーションに最適です。
このホワイトペーパーでは、Android電話、USB経由で電話に取り付けられたマイクロコントローラーボード、およびリモートワイヤレスコントローラーステーションで構成されるロボットシステムが提案されています。
データ収集モードでは、Androidデバイスは、複数のカメラ、IMU、GNSSユニット、および外部USB ADCチャネルの多様な構成のデータセットを記録できますが、使用される最大の形式では、推定とシーンの再構成アプリケーションをもたらさないが、これらに限定されない。
ロボット制御モードでは、Android電話、マイクロコントローラーボード、およびその他の周辺機器がモバイルまたは固定ロボットシステムを構成します。
このシステムは、Wi-FiまたはBluetoothに接続されたリモートサーバーを使用して制御されます。
実験では、SLAMおよびARアプリケーションは取得したデータを利用できますが、提案されたシステムは、これらの騒々しい散発的測定を処理するためのより高度なアルゴリズムの道を開くことができることを示しています。
さらに、通信メディアの特性が研究されており、おもちゃの車とクアッドコプターの制御を伴う2つのロボットプロジェクトの例が含まれています。

要約(オリジナル)

Mobile smartphones compactly provide sensors such as cameras, IMUs, GNSS measurement units, and wireless and wired communication channels required for robotics projects. They are affordable, portable, and programmable, which makes them ideal for testing, data acquisition, controlling mobile robots, and many other robotic applications. A robotic system is proposed in this paper, consisting of an Android phone, a microcontroller board attached to the phone via USB, and a remote wireless controller station. In the data acquisition mode, the Android device can record a dataset of a diverse configuration of multiple cameras, IMUs, GNSS units, and external USB ADC channels in the rawest format used for, but not limited to, pose estimation and scene reconstruction applications. In robot control mode, the Android phone, a microcontroller board, and other peripherals constitute the mobile or stationary robotic system. This system is controlled using a remote server connected over Wi-Fi or Bluetooth. Experiments show that although the SLAM and AR applications can utilize the acquired data, the proposed system can pave the way for more advanced algorithms for processing these noisy and sporadic measurements. Moreover, the characteristics of the communication media are studied, and two example robotic projects, which involve controlling a toy car and a quadcopter, are included.

arxiv情報

著者 Masoud Dayani Najafabadi,Khoshnam Shojaei
発行日 2025-05-22 11:33:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Robo-Platform: A Robotic System for Recording Sensors and Controlling Robots はコメントを受け付けていません

Find the Fruit: Designing a Zero-Shot Sim2Real Deep RL Planner for Occlusion Aware Plant Manipulation

要約

このペーパーでは、散らかった植物環境における閉塞認識ロボット操作のためのエンドツーエンドのディープ補強学習(RL)フレームワークを紹介します。
私たちのアプローチにより、ロボットは変形可能な植物と対話して、マルチモーダル観測を使用して果物などの興味のある隠されたオブジェクトを明らかにします。
訓練されたポリシーのゼロショットSIM2real転送を簡素化するために、ロボット制御から運動学的計画の問題を分離します。
私たちの結果は、私たちのフレームワークを使用して展開された訓練されたポリシーが、多様な初期条件での実際の試験で最大86.7%の成功を達成することを示しています。
私たちの発見は、すべての植物シナリオの明示的に設計された幾何学的および動的なモデルを必要とせずに、閉塞したシナリオで複雑な葉植物とインテリジェントに相互作用して「果物を見つける」自律的で知覚主導の農業ロボットへの道を開きます。

要約(オリジナル)

This paper presents an end-to-end deep reinforcement learning (RL) framework for occlusion-aware robotic manipulation in cluttered plant environments. Our approach enables a robot to interact with a deformable plant to reveal hidden objects of interest, such as fruits, using multimodal observations. We decouple the kinematic planning problem from robot control to simplify zero-shot sim2real transfer for the trained policy. Our results demonstrate that the trained policy, deployed using our framework, achieves up to 86.7% success in real-world trials across diverse initial conditions. Our findings pave the way toward autonomous, perception-driven agricultural robots that intelligently interact with complex foliage plants to ‘find the fruit’ in challenging occluded scenarios, without the need for explicitly designed geometric and dynamic models of every plant scenario.

arxiv情報

著者 Nitesh Subedi,Hsin-Jung Yang,Devesh K. Jha,Soumik Sarkar
発行日 2025-05-22 11:37:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Find the Fruit: Designing a Zero-Shot Sim2Real Deep RL Planner for Occlusion Aware Plant Manipulation はコメントを受け付けていません

Multi-layer Motion Planning with Kinodynamic and Spatio-Temporal Constraints

要約

キノダイナミックと空間的制約の両方を満たすパスを計算するための新しい多層計画アプローチを提案します。
3部構成のフレームワークは、最初に空間制約を満たすための潜在的なシーケンスを確立し、それらを使用して幾何学的なリードパスを計算します。
このパスは、漸近的に最適なサンプリングベースの運動力学プランナーを導きます。これにより、STL堅牢性のコストが最小限に抑えられ、時空間および運動力学的制約が共同で満たされます。
実験では、速度制御されたアッカーマンカーモデルで方法をテストし、以前のARTと比較して有意な効率の向上を示します。
さらに、私たちの方法は、以前の方法が実証していなかったクロスオーバーなど、複雑なパス操作を生成することができます。

要約(オリジナル)

We propose a novel, multi-layered planning approach for computing paths that satisfy both kinodynamic and spatiotemporal constraints. Our three-part framework first establishes potential sequences to meet spatial constraints, using them to calculate a geometric lead path. This path then guides an asymptotically optimal sampling-based kinodynamic planner, which minimizes an STL-robustness cost to jointly satisfy spatiotemporal and kinodynamic constraints. In our experiments, we test our method with a velocity-controlled Ackerman-car model and demonstrate significant efficiency gains compared to prior art. Additionally, our method is able to generate complex path maneuvers, such as crossovers, something that previous methods had not demonstrated.

arxiv情報

著者 Jeel Chatrola,Abhiroop Ajith,Kevin Leahy,Constantinos Chamzas
発行日 2025-05-22 11:46:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Multi-layer Motion Planning with Kinodynamic and Spatio-Temporal Constraints はコメントを受け付けていません

GOTPR: General Outdoor Text-based Place Recognition Using Scene Graph Retrieval with OpenStreetMap

要約

GOTPRは、GPS信号が利用できない屋外環境向けに設計された堅牢な場所認識方法です。
保存が大きく困難なポイントクラウドマップを使用する既存のアプローチとは異なり、gotPRレバレッジシーングラフは、場所の認識のためにテキストの説明とマップから生成されました。
この方法により、ポイントクラウドをコンパクトなデータ構造に置き換えることでスケーラビリティが向上し、ロボットが広範なマップデータを効率的に保存および利用できるようにします。
さらに、GOTPRは、グローバルな空間情報を提供する公開されているOpenStreetMapデータを使用することにより、カスタムマップ作成の必要性を排除します。
Kitti360poseデータセットを使用して、対応するOpenstreetMapデータを使用してパフォーマンスを評価し、既存のポイントクラウドベースの場所認識方法と比較しました。
結果は、gotPRが同等の精度を達成し、ストレージ要件を大幅に削減することを示しています。
都市規模のテストでは、数秒以内に処理を完了し、実際のロボット工学アプリケーションで非常に実用的になりました。
詳細については、https://donghwijung.github.io/gotpr_page/をご覧ください。

要約(オリジナル)

We propose GOTPR, a robust place recognition method designed for outdoor environments where GPS signals are unavailable. Unlike existing approaches that use point cloud maps, which are large and difficult to store, GOTPR leverages scene graphs generated from text descriptions and maps for place recognition. This method improves scalability by replacing point clouds with compact data structures, allowing robots to efficiently store and utilize extensive map data. In addition, GOTPR eliminates the need for custom map creation by using publicly available OpenStreetMap data, which provides global spatial information. We evaluated its performance using the KITTI360Pose dataset with corresponding OpenStreetMap data, comparing it to existing point cloud-based place recognition methods. The results show that GOTPR achieves comparable accuracy while significantly reducing storage requirements. In city-scale tests, it completed processing within a few seconds, making it highly practical for real-world robotics applications. More information can be found at https://donghwijung.github.io/GOTPR_page/.

arxiv情報

著者 Donghwi Jung,Keonwoo Kim,Seong-Woo Kim
発行日 2025-05-22 11:48:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | GOTPR: General Outdoor Text-based Place Recognition Using Scene Graph Retrieval with OpenStreetMap はコメントを受け付けていません

Neural Internal Model Control: Learning a Robust Control Policy via Predictive Error Feedback

要約

複雑な環境内の妨害に直面した正確なモーション制御は、ロボット工学の大きな課題のままです。
古典的なモデルベースのアプローチは、しばしば非線形性や構造化されていない乱れに苦労しますが、RLベースの方法は、目に見えないシナリオに遭遇すると脆弱です。
この論文では、モデルベースのコントロールをRLベースのコントロールと堅牢性を高める新しいフレームワークであるニューラル内部モデル制御を提案します。
私たちのフレームワークは、剛体のダイナミクスにニュートンエウラー方程式を適用し、複雑な高次元の非線形性をキャプチャする必要性を排除することにより、予測モデルを合理化します。
この内部モデルは、モデルフリーのRLアルゴリズムと予測エラーフィードバックを組み合わせています。
このような設計により、閉ループ制御構造が制御システムの堅牢性と一般化可能性を高めることができます。
四つ孔と四角形のロボットの両方でフレームワークの有効性を実証し、最先端の方法と比較して優れたパフォーマンスを実現します。
さらに、ロープ懸濁されたペイロードを備えた四肢装置への実際の展開は、SIMからリアルへの転送におけるフレームワークの堅牢性を強調しています。
私たちのコードはhttps://github.com/thu-uav/neuralimcでリリ​​ースされています。

要約(オリジナル)

Accurate motion control in the face of disturbances within complex environments remains a major challenge in robotics. Classical model-based approaches often struggle with nonlinearities and unstructured disturbances, while RL-based methods can be fragile when encountering unseen scenarios. In this paper, we propose a novel framework, Neural Internal Model Control, which integrates model-based control with RL-based control to enhance robustness. Our framework streamlines the predictive model by applying Newton-Euler equations for rigid-body dynamics, eliminating the need to capture complex high-dimensional nonlinearities. This internal model combines model-free RL algorithms with predictive error feedback. Such a design enables a closed-loop control structure to enhance the robustness and generalizability of the control system. We demonstrate the effectiveness of our framework on both quadrotors and quadrupedal robots, achieving superior performance compared to state-of-the-art methods. Furthermore, real-world deployment on a quadrotor with rope-suspended payloads highlights the framework’s robustness in sim-to-real transfer. Our code is released at https://github.com/thu-uav/NeuralIMC.

arxiv情報

著者 Feng Gao,Chao Yu,Yu Wang,Yi Wu
発行日 2025-05-22 12:28:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Neural Internal Model Control: Learning a Robust Control Policy via Predictive Error Feedback はコメントを受け付けていません

Safe Uncertainty-Aware Learning of Robotic Suturing

要約

ロボット支援低侵襲手術は現在、訓練を受けた外科医によって完全に手動で制御されています。
これを自動化することは、問題を軽減する大きな可能性、例えば、物理的なひずみ、非常に反復的なタスク、訓練された外科医の不足があります。
これらの理由により、最近の作品は人工知能方法を利用しており、有望な適応性を示しています。
これらの進歩にもかかわらず、説明可能性と堅牢な安全保証がないため、これらの方法には懐疑的です。
このペーパーでは、安全で不確実な学習方法のフレームワークを紹介します。
針挿入の専門的なデモンストレーションを使用して、拡散ポリシーのアンサンブルモデルをトレーニングします。
アンサンブルモデルを使用して、分散型シナリオを決定するために使用されるポリシーの認識論的不確実性を定量化できます。
これにより、安全でないシナリオが発生した場合、システムは外科医にコントロールをリリースできます。
さらに、予測されるアクションに正式な安全保証を配置するために、モデルなしの制御バリア関数を実装します。
最先端のロボット縫合シミュレーターを使用して、提案されたフレームワークを実験的に評価します。
針を落としたり、カメラを動かしたり、ファントムを移動したりするなど、複数のシナリオを評価します。
学習したポリシーは、これらの摂動に堅牢であり、修正行動と一般化を示しており、分散型シナリオを検出することが可能です。
さらに、制御バリア関数が、安全でない予測の場合に指定された安全セット内に留まるようにアクションを正常に制限することを実証します。

要約(オリジナル)

Robot-Assisted Minimally Invasive Surgery is currently fully manually controlled by a trained surgeon. Automating this has great potential for alleviating issues, e.g., physical strain, highly repetitive tasks, and shortages of trained surgeons. For these reasons, recent works have utilized Artificial Intelligence methods, which show promising adaptability. Despite these advances, there is skepticism of these methods because they lack explainability and robust safety guarantees. This paper presents a framework for a safe, uncertainty-aware learning method. We train an Ensemble Model of Diffusion Policies using expert demonstrations of needle insertion. Using an Ensemble model, we can quantify the policy’s epistemic uncertainty, which is used to determine Out-Of-Distribution scenarios. This allows the system to release control back to the surgeon in the event of an unsafe scenario. Additionally, we implement a model-free Control Barrier Function to place formal safety guarantees on the predicted action. We experimentally evaluate our proposed framework using a state-of-the-art robotic suturing simulator. We evaluate multiple scenarios, such as dropping the needle, moving the camera, and moving the phantom. The learned policy is robust to these perturbations, showing corrective behaviors and generalization, and it is possible to detect Out-Of-Distribution scenarios. We further demonstrate that the Control Barrier Function successfully limits the action to remain within our specified safety set in the case of unsafe predictions.

arxiv情報

著者 Wilbert Peter Empleo,Yitaek Kim,Hansoul Kim,Thiusius Rajeeth Savarimuthu,Iñigo Iturrate
発行日 2025-05-22 12:31:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Safe Uncertainty-Aware Learning of Robotic Suturing はコメントを受け付けていません