SARO: Space-Aware Robot System for Terrain Crossing via Vision-Language Model

要約

Vision-Language Models(VLMS)の適用は、さまざまなロボットタスクで印象的な成功を収めています。
ただし、3D環境の地形を通る四足ロボットナビゲーションで使用されるこれらの基礎モデルの探索はほとんどありません。
この作業では、高レベルの推論モジュール、閉ループサブタスク実行モジュール、および低レベルの制御ポリシーで構成される革新的なシステムであるSaro(Space Aware Robot System for Terrain Crossing)を紹介します。
これにより、ロボットは3D地形を横切ってナビゲートし、ゴールポジションに到達できます。
高レベルの推論と実行のために、タスク分解の設計と閉ループサブタスク実行メカニズムを備えたVLMを利用した新しいアルゴリズムシステムを提案します。
低レベルの移動制御には、確率アニーリング選択(PAS)メソッドを利用して、補強学習によって制御ポリシーを効果的に訓練します。
多数の実験により、システム全体がいくつかの3D地形を正確かつ堅牢に移動できることが示されており、その一般化能力により、多様な屋内および屋外のシナリオと地形のアプリケーションが保証されます。
プロジェクトページ:https://saro-vlm.github.io/

要約(オリジナル)

The application of vision-language models (VLMs) has achieved impressive success in various robotics tasks. However, there are few explorations for these foundation models used in quadruped robot navigation through terrains in 3D environments. In this work, we introduce SARO (Space Aware Robot System for Terrain Crossing), an innovative system composed of a high-level reasoning module, a closed-loop sub-task execution module, and a low-level control policy. It enables the robot to navigate across 3D terrains and reach the goal position. For high-level reasoning and execution, we propose a novel algorithmic system taking advantage of a VLM, with a design of task decomposition and a closed-loop sub-task execution mechanism. For low-level locomotion control, we utilize the Probability Annealing Selection (PAS) method to effectively train a control policy by reinforcement learning. Numerous experiments show that our whole system can accurately and robustly navigate across several 3D terrains, and its generalization ability ensures the applications in diverse indoor and outdoor scenarios and terrains. Project page: https://saro-vlm.github.io/

arxiv情報

著者 Shaoting Zhu,Derun Li,Linzhan Mou,Yong Liu,Ningyi Xu,Hang Zhao
発行日 2025-03-17 07:52:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SARO: Space-Aware Robot System for Terrain Crossing via Vision-Language Model はコメントを受け付けていません

Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach

要約

具体化されたAIの進歩により、エンドツーエンドの訓練を受けたエージェントが、高レベルの推論とゼロショットまたは言語条件付けの動作を備えた写真リアルな環境でナビゲートすることが可能になりましたが、ベンチマークはまだシミュレーションによって支配されています。
この作業では、急速に移動する本物のロボットのきめの細かい動作に焦点を当て、物理的なロボットを備えた実際の環境で\ numepisodes {}ナビゲーションエピソードを含む大規模な実験的研究を提示します。
特に、エージェントがオープンループ予測のために学んだ現実的なダイナミクスの存在と、センシングとの相互作用を研究します。
エージェントが潜在メモリを使用して、探査中に収集されたシーン構造と情報の要素を保持する方法を分析します。
エージェントの計画能力を調査し、限られた地平線よりも多少正確な計画の記憶の証拠を見つけます。
さらに、事後分析では、エージェントが学んだ値関数が長期計画に関連していることを示します。
まとめて、私たちの実験では、コンピュータービジョンとシーケンシャルな意思決定からのツールを使用することで、ロボット工学と制御の新しい機能につながったことについての新しい絵を描きます。
インタラクティブツールは、europe.naverlabs.com/research/publications/reasoning-in-visual-navigation of-end-end-trained-agentで入手できます。

要約(オリジナル)

Progress in Embodied AI has made it possible for end-to-end-trained agents to navigate in photo-realistic environments with high-level reasoning and zero-shot or language-conditioned behavior, but benchmarks are still dominated by simulation. In this work, we focus on the fine-grained behavior of fast-moving real robots and present a large-scale experimental study involving \numepisodes{} navigation episodes in a real environment with a physical robot, where we analyze the type of reasoning emerging from end-to-end training. In particular, we study the presence of realistic dynamics which the agent learned for open-loop forecasting, and their interplay with sensing. We analyze the way the agent uses latent memory to hold elements of the scene structure and information gathered during exploration. We probe the planning capabilities of the agent, and find in its memory evidence for somewhat precise plans over a limited horizon. Furthermore, we show in a post-hoc analysis that the value function learned by the agent relates to long-term planning. Put together, our experiments paint a new picture on how using tools from computer vision and sequential decision making have led to new capabilities in robotics and control. An interactive tool is available at europe.naverlabs.com/research/publications/reasoning-in-visual-navigation-of-end-to-end-trained-agents.

arxiv情報

著者 Steeven Janny,Hervé Poirier,Leonid Antsfeld,Guillaume Bono,Gianluca Monaci,Boris Chidlovskii,Francesco Giuliari,Alessio Del Bue,Christian Wolf
発行日 2025-03-17 08:35:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach はコメントを受け付けていません

HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

要約

一般的な推論のための視覚言語モデル(VLM)の最近の進歩により、視覚言語アクション(VLA)モデルの開発が行われ、ロボットが一般化された操作を実行できます。
既存の自己回帰VLAメソッドは、大規模な事前に抑制された知識を活用していますが、アクションの連続性を混乱させます。
一方、一部のVLAメソッドには、追加の拡散ヘッドが組み込まれ、継続的なアクションを予測し、VLM抽出された機能のみに依存して、推論機能を制限します。
このペーパーでは、単に接続するのではなく、単一の大手言語モデル内で自己回帰ポリシーと拡散ポリシーの両方の強度をシームレスに統合する統合されたフレームワークであるHybridvlaを紹介します。
生成ギャップを埋めるために、拡散モデリングを次のトークン予測に直接注入する共同トレーニングレシピが提案されています。
このレシピにより、これらの2つの形式のアクション予測は、互いを強化するだけでなく、異なるタスクでさまざまなパフォーマンスを示すことがわかります。
したがって、これらの2つの予測を適応的に融合させ、より堅牢な制御につながる共同アクションアンサンブルメカニズムを設計します。
実験では、HybridVLAは、シングルアームロボットとデュアルアームロボットの両方を含むさまざまなシミュレーションと現実世界のタスクにわたって以前の最先端のVLAメソッドを上回り、以前に見えない構成の安定した操作を示します。

要約(オリジナル)

Recent advancements in vision-language models (VLMs) for common-sense reasoning have led to the development of vision-language-action (VLA) models, enabling robots to perform generalized manipulation. Although existing autoregressive VLA methods leverage large-scale pretrained knowledge, they disrupt the continuity of actions. Meanwhile, some VLA methods incorporate an additional diffusion head to predict continuous actions, relying solely on VLM-extracted features, which limits their reasoning capabilities. In this paper, we introduce HybridVLA, a unified framework that seamlessly integrates the strengths of both autoregressive and diffusion policies within a single large language model, rather than simply connecting them. To bridge the generation gap, a collaborative training recipe is proposed that injects the diffusion modeling directly into the next-token prediction. With this recipe, we find that these two forms of action prediction not only reinforce each other but also exhibit varying performance across different tasks. Therefore, we design a collaborative action ensemble mechanism that adaptively fuses these two predictions, leading to more robust control. In experiments, HybridVLA outperforms previous state-of-the-art VLA methods across various simulation and real-world tasks, including both single-arm and dual-arm robots, while demonstrating stable manipulation in previously unseen configurations.

arxiv情報

著者 Jiaming Liu,Hao Chen,Pengju An,Zhuoyang Liu,Renrui Zhang,Chenyang Gu,Xiaoqi Li,Ziyu Guo,Sixiang Chen,Mengzhen Liu,Chengkai Hou,Mengdi Zhao,KC alex Zhou,Pheng-Ann Heng,Shanghang Zhang
発行日 2025-03-17 08:44:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model はコメントを受け付けていません

OptiPMB: Enhancing 3D Multi-Object Tracking with Optimized Poisson Multi-Bernoulli Filtering

要約

複雑な環境での堅牢な知覚、ナビゲーション、および計画を可能にするため、自律運転には正確な3Dマルチオブジェクト追跡(MOT)が重要です。
ディープラーニングベースのソリューションは印象的な3D MOTパフォーマンスを実証していますが、モデルベースのアプローチは、そのシンプルさ、解釈可能性、データ効率に魅力的です。
従来のモデルベースのトラッカーは、通常、追跡ごと(TBD)フレームワーク内のランダムベクターベースのベイジアンフィルターに依存していますが、ヒューリスティックデータ関連と追跡管理スキームにより、直面しています。
対照的に、ランダム有限セット(RFS)ベースのベイジアンフィルタリングは、理論的に健全な方法でオブジェクトの出生、生存、および死を処理し、解釈可能性とパラメーターチューニングを促進します。
このホワイトペーパーでは、TBDフレームワークにいくつかの主要な革新的なデザインを組み込んでいる間、最適化されたPoisson Multi-Bernoulli(PMB)フィルターを使用する新しいRFSベースの3D MOTメソッドであるOptipmbを紹介します。
具体的には、測定駆動型のハイブリッド適応型出生モデルを改善したトラックの初期化、適応検出確率パラメーターを使用して、閉塞されたオブジェクトのトラックを効果的に維持し、密度剪定とトラック抽出モジュールを最適化して、全体的な追跡パフォーマンスをさらに強化します。
ヌスケンとキッティデータセットに関する広範な評価は、OptIPMBが最先端の方法と比較して優れた追跡精度を達成し、それによりモデルベースの3D MOTの新しいベンチマークを確立し、自律運転におけるRFSベースのトラッカーに関する将来の研究に貴重な洞察を提供することを示しています。

要約(オリジナル)

Accurate 3D multi-object tracking (MOT) is crucial for autonomous driving, as it enables robust perception, navigation, and planning in complex environments. While deep learning-based solutions have demonstrated impressive 3D MOT performance, model-based approaches remain appealing for their simplicity, interpretability, and data efficiency. Conventional model-based trackers typically rely on random vector-based Bayesian filters within the tracking-by-detection (TBD) framework but face limitations due to heuristic data association and track management schemes. In contrast, random finite set (RFS)-based Bayesian filtering handles object birth, survival, and death in a theoretically sound manner, facilitating interpretability and parameter tuning. In this paper, we present OptiPMB, a novel RFS-based 3D MOT method that employs an optimized Poisson multi-Bernoulli (PMB) filter while incorporating several key innovative designs within the TBD framework. Specifically, we propose a measurement-driven hybrid adaptive birth model for improved track initialization, employ adaptive detection probability parameters to effectively maintain tracks for occluded objects, and optimize density pruning and track extraction modules to further enhance overall tracking performance. Extensive evaluations on nuScenes and KITTI datasets show that OptiPMB achieves superior tracking accuracy compared with state-of-the-art methods, thereby establishing a new benchmark for model-based 3D MOT and offering valuable insights for future research on RFS-based trackers in autonomous driving.

arxiv情報

著者 Guanhua Ding,Yuxuan Xia,Runwei Guan,Qinchen Wu,Tao Huang,Weiping Ding,Jinping Sun,Guoqiang Mao
発行日 2025-03-17 09:24:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | OptiPMB: Enhancing 3D Multi-Object Tracking with Optimized Poisson Multi-Bernoulli Filtering はコメントを受け付けていません

Exploring 3D Activity Reasoning and Planning: From Implicit Human Intentions to Route-Aware Planning

要約

3Dアクティビティの推論と計画は、マルチモーダル学習の最近の進歩のおかげで、人間とロボットの相互作用の注目を集め、AIを具体化しました。
ただし、ほとんどの既存の作業は、2つの制約を共有しています。1)暗黙のユーザー意図に関する推論がほとんどない明示的な指示に大きく依存しています。
2)ロボットの動きでのステップ間ルート計画の過失。
ギャップを埋めるために、3Dアクティビティの推論と計画を提案します。これは、暗黙の指示から意図したアクティビティが段階的なルートで段階に分解され、シーンセグメンテーションからの微細に分解された3Dオブジェクト形状と場所のガイダンスの下でそれらを分解し、計画を分解する新しい3Dタスクです。
2つの観点から新しい3Dタスクに取り組みます。
まず、ReasonPlan3Dを構築します。これは、多様な3Dシーンをカバーする大規模なベンチマークで、豊富な暗黙の指示とマルチステップタスク計画、ステップ間ルート計画、および微細なセグメンテーションのための詳細な注釈を備えています。
第二に、複数のステップでコンテキストの一貫性を備えたプログレッシブプランの生成を導入する新しいフレームワークと、重要なオブジェクトとその空間関係をキャプチャするために動的に更新されるシーングラフを設計します。
広範な実験は、暗黙の人間の指示からの推論活動、正確な段階的なタスク計画の作成、およびマルチステップの動きのルート計画をシームレスに統合するための推論活動におけるベンチマークとフレームワークの有効性を示しています。
データセットとコードがリリースされます。

要約(オリジナル)

3D activity reasoning and planning has attracted increasing attention in human-robot interaction and embodied AI thanks to the recent advance in multimodal learning. However, most existing works share two constraints: 1) heavy reliance on explicit instructions with little reasoning on implicit user intention; 2) negligence of inter-step route planning on robot moves. To bridge the gaps, we propose 3D activity reasoning and planning, a novel 3D task that reasons the intended activities from implicit instructions and decomposes them into steps with inter-step routes and planning under the guidance of fine-grained 3D object shapes and locations from scene segmentation. We tackle the new 3D task from two perspectives. First, we construct ReasonPlan3D, a large-scale benchmark that covers diverse 3D scenes with rich implicit instructions and detailed annotations for multi-step task planning, inter-step route planning, and fine-grained segmentation. Second, we design a novel framework that introduces progressive plan generation with contextual consistency across multiple steps, as well as a scene graph that is updated dynamically for capturing critical objects and their spatial relations. Extensive experiments demonstrate the effectiveness of our benchmark and framework in reasoning activities from implicit human instructions, producing accurate stepwise task plans, and seamlessly integrating route planning for multi-step moves. The dataset and code will be released.

arxiv情報

著者 Xueying Jiang,Wenhao Li,Xiaoqin Zhang,Ling Shao,Shijian Lu
発行日 2025-03-17 09:33:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Exploring 3D Activity Reasoning and Planning: From Implicit Human Intentions to Route-Aware Planning はコメントを受け付けていません

Robot Policy Transfer with Online Demonstrations: An Active Reinforcement Learning Approach

要約

Transfer Learning(TL)は、ロボットがさまざまな環境、タスク、または実施形態にわたって学習ポリシーを転送できるようにする強力なツールです。
このプロセスをさらに促進するために、より柔軟で効率的な政策転送のために、それをデモンストレーション(LFD)からの学習と組み合わせる努力がなされました。
ただし、これらのアプローチは、ポリシー移転が開始される前に収集されたオフラインデモンストレーションにほぼ限定されています。これは、LFDによってもたらされた共分散シフトの本質的な問題に悩まされ、政策転送のパフォーマンスに害を及ぼす可能性があります。
一方、Scratchからの学習設定での広範な作業は、オンラインデモンストレーションが共分散シフトを効果的に緩和し、サンプル効率を向上させ、より良いポリシーパフォーマンスにつながることを示しています。
この作業では、これらの洞察を組み合わせて、オンラインデモンストレーションをポリシー転送設定に紹介します。
限られたデモンストレーション予算の下でオンラインエピソードの専門家デモンストレーションのクエリのタイミングと内容を最適化できるポリシー転送のためのアクティブなLFDアルゴリズムであるオンラインデモンストレーションでポリシー転送を提示します。
ソースタスクから関連するが異なるターゲットタスクに訓練されたポリシーを転送することを目的として、多様な環境特性、タスクの目的、およびロボットの実施形態を介した政策転送を含む8つのロボットシナリオでの方法を評価します。
結果は、オフラインデモンストレーションを備えた2つの標準LFDメソッドとオンラインデモンストレーションを使用した1つのアクティブLFDメソッドと比較して、平均成功率とサンプル効率の観点から、すべてのベースラインを大幅に上回ることを示しています。
さらに、現実世界環境の3つの転送シナリオで転送されたポリシーの予備的なSIMからリアルテストを実施し、実際のロボットマニピュレーターに対するポリシーの有効性を実証します。

要約(オリジナル)

Transfer Learning (TL) is a powerful tool that enables robots to transfer learned policies across different environments, tasks, or embodiments. To further facilitate this process, efforts have been made to combine it with Learning from Demonstrations (LfD) for more flexible and efficient policy transfer. However, these approaches are almost exclusively limited to offline demonstrations collected before policy transfer starts, which may suffer from the intrinsic issue of covariance shift brought by LfD and harm the performance of policy transfer. Meanwhile, extensive work in the learning-from-scratch setting has shown that online demonstrations can effectively alleviate covariance shift and lead to better policy performance with improved sample efficiency. This work combines these insights to introduce online demonstrations into a policy transfer setting. We present Policy Transfer with Online Demonstrations, an active LfD algorithm for policy transfer that can optimize the timing and content of queries for online episodic expert demonstrations under a limited demonstration budget. We evaluate our method in eight robotic scenarios, involving policy transfer across diverse environment characteristics, task objectives, and robotic embodiments, with the aim to transfer a trained policy from a source task to a related but different target task. The results show that our method significantly outperforms all baselines in terms of average success rate and sample efficiency, compared to two canonical LfD methods with offline demonstrations and one active LfD method with online demonstrations. Additionally, we conduct preliminary sim-to-real tests of the transferred policy on three transfer scenarios in the real-world environment, demonstrating the policy effectiveness on a real robot manipulator.

arxiv情報

著者 Muhan Hou,Koen Hindriks,A. E. Eiben,Kim Baraka
発行日 2025-03-17 09:47:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Robot Policy Transfer with Online Demonstrations: An Active Reinforcement Learning Approach はコメントを受け付けていません

Believing is Seeing: Unobserved Object Detection using Generative Models

要約

画像には見えないが、カメラの近くにあるオブジェクトは検出できますか?
この研究では、画像フレームの外側に閉塞または横になっている近くのオブジェクトの位置を予測するための2D、2.5D、および3D未観測オブジェクト検出の新しいタスクを紹介します。
2Dおよび3D拡散モデルやビジョン言語モデルを含む、このタスクに対処するために、最先端の事前訓練モデルをいくつか適応させ、直接観察されないオブジェクトの存在を推測するために使用できることを示します。
このタスクをベンチマークするために、パフォーマンスのさまざまな側面をキャプチャする一連のメトリックを提案します。
Realestate10KおよびNYU深度V2データセットの屋内シーンに関する経験的評価は、観察されていないオブジェクト検出タスクの生成モデルの使用を動機付ける結果を示しています。

要約(オリジナル)

Can objects that are not visible in an image — but are in the vicinity of the camera — be detected? This study introduces the novel tasks of 2D, 2.5D and 3D unobserved object detection for predicting the location of nearby objects that are occluded or lie outside the image frame. We adapt several state-of-the-art pre-trained generative models to address this task, including 2D and 3D diffusion models and vision-language models, and show that they can be used to infer the presence of objects that are not directly observed. To benchmark this task, we propose a suite of metrics that capture different aspects of performance. Our empirical evaluation on indoor scenes from the RealEstate10k and NYU Depth v2 datasets demonstrate results that motivate the use of generative models for the unobserved object detection task.

arxiv情報

著者 Subhransu S. Bhattacharjee,Dylan Campbell,Rahul Shome
発行日 2025-03-17 09:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Believing is Seeing: Unobserved Object Detection using Generative Models はコメントを受け付けていません

Towards Effective Utilization of Mixed-Quality Demonstrations in Robotic Manipulation via Segment-Level Selection and Optimization

要約

データは、複雑なタスク用のロボットシステムの開発を支えるため、ロボット操作には重要です。
高品質で多様なデータセットは、ロボット操作ポリシーのパフォーマンスと適応性を向上させますが、広範な専門家レベルのデータを収集することはリソース集約型です。
その結果、多くの現在のデータセットは、オペレーターの変動性のために品質の矛盾に悩まされ、混合品質のデータを効果的に利用する方法の必要性を強調しています。
これらの問題を軽減するために、「セグメントを模倣するセグメントを選択する」(S2I)を提案します。これは、セグメントレベルで混合品質のデモデータを選択および最適化し、既存のロボット操作ポリシーとのプラグアンドプレイの互換性を確保します。
このフレームワークには、デモンストレーションセグメンテーションの原点データを意味のあるセグメントに分割すること、コントラスト学習を使用して高品質のセグメントを見つけるセグメント選択、およびより良い政策学習のための準最適なセグメントを改良する軌道最適化の3つのコンポーネントがあります。
6つのタスクにわたるシミュレーションおよび実際の環境での包括的な実験を通じてS2Iを評価し、参照のための3つの専門家デモのみで、S2Iは混合品質のデモンストレーションで訓練された場合、さまざまなダウンストリームポリシーのパフォーマンスを改善できることを実証します。
プロジェクトWebサイト:https://tonyfang.net/s2i/。

要約(オリジナル)

Data is crucial for robotic manipulation, as it underpins the development of robotic systems for complex tasks. While high-quality, diverse datasets enhance the performance and adaptability of robotic manipulation policies, collecting extensive expert-level data is resource-intensive. Consequently, many current datasets suffer from quality inconsistencies due to operator variability, highlighting the need for methods to utilize mixed-quality data effectively. To mitigate these issues, we propose ‘Select Segments to Imitate’ (S2I), a framework that selects and optimizes mixed-quality demonstration data at the segment level, while ensuring plug-and-play compatibility with existing robotic manipulation policies. The framework has three components: demonstration segmentation dividing origin data into meaningful segments, segment selection using contrastive learning to find high-quality segments, and trajectory optimization to refine suboptimal segments for better policy learning. We evaluate S2I through comprehensive experiments in simulation and real-world environments across six tasks, demonstrating that with only 3 expert demonstrations for reference, S2I can improve the performance of various downstream policies when trained with mixed-quality demonstrations. Project website: https://tonyfang.net/s2i/.

arxiv情報

著者 Jingjing Chen,Hongjie Fang,Hao-Shu Fang,Cewu Lu
発行日 2025-03-17 09:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Towards Effective Utilization of Mixed-Quality Demonstrations in Robotic Manipulation via Segment-Level Selection and Optimization はコメントを受け付けていません

Sensorless Remote Center of Motion Misalignment Estimation

要約

腹腔鏡手術は、患者への切開時の固定ピボットポイントの周りの器具の動きを制限し、組織外傷を最小限に抑えます。
手術ロボットは、どちらかのハードウェアからソフトウェアベースのリモートモーションセンター(RCM)制約を介してこれを達成します。
ただし、手動のトロカー配置、患者の動き、および組織の変形のため、正確なRCMアライメントは困難です。
ロボットのRCMポイントと患者切開部位の間の不整合は、切開部位で危険な力を引き起こす可能性があります。
このホワイトペーパーでは、ロボット手術におけるRCMの不整合を動的に評価および最適化するためのセンサーの力の推定ベースのフレームワークを紹介します。
私たちの実験は、20 mmを超える不整合が組織に潜在的に損傷するのに十分な大きさの力を生成し、正確なRCMポジショニングの必要性を強調できることを示しています。
ミスアライメント$ d \ geq $ 20 mmの場合、最適化アルゴリズムは、5 mm以内の絶対誤差でRCMオフセットを推定します。
正確なRCMの不整合推定は、自動化されたRCM誤補償補償に向けた一歩であり、ロボット支援腹腔鏡手術における安全性を高め、組織損傷を軽減します。

要約(オリジナル)

Laparoscopic surgery constrains instrument motion around a fixed pivot point at the incision into a patient to minimize tissue trauma. Surgical robots achieve this through either hardware to software-based remote center of motion (RCM) constraints. However, accurate RCM alignment is difficult due to manual trocar placement, patient motion, and tissue deformation. Misalignment between the robot’s RCM point and the patient incision site can cause unsafe forces at the incision site. This paper presents a sensorless force estimation-based framework for dynamically assessing and optimizing RCM misalignment in robotic surgery. Our experiments demonstrate that misalignment exceeding 20 mm can generate large enough forces to potentially damage tissue, emphasizing the need for precise RCM positioning. For misalignment $D\geq $ 20 mm, our optimization algorithm estimates the RCM offset with an absolute error within 5 mm. Accurate RCM misalignment estimation is a step toward automated RCM misalignment compensation, enhancing safety and reducing tissue damage in robotic-assisted laparoscopic surgery.

arxiv情報

著者 Hao Yang,Lidia Al-Zogbi,Ahmet Yildiz,Nabil Simaan,Jie Ying Wu
発行日 2025-03-17 10:11:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, eess.IV | Sensorless Remote Center of Motion Misalignment Estimation はコメントを受け付けていません

Large-area Tomographic Tactile Skin with Air Pressure Sensing for Improved Force Estimation

要約

このペーパーでは、正確なマルチコンタクト力検出を実現するために、電気インピーダンス断層撮影(EIT)と空気圧センシングを統合するデュアルチャネル触覚皮膚を紹介します。
EITレイヤーは空間的な連絡先情報を提供し、空気圧センサーは正確な総力測定を提供します。
私たちのフレームワークは、これらの補完的なモダリティを、EITからの相対伝導性強度に基づいて、ディープラーニングベースのEIT画像再構成、接触面積セグメンテーション、および力の割り当てを介して組み合わせています。
実験では、単一接触シナリオで15.1%の平均力推定誤差を示し、広範なキャリブレーションデータ要件なしにマルチコンタクトシナリオで20.1%が示されました。
このアプローチは、複雑な外部キャリブレーションセットアップを必要とせずに複数の接触力を同時にローカライズおよび定量化するという課題に効果的に対処し、実用的でスケーラブルなソフトロボットスキンアプリケーションへの道を開きます。

要約(オリジナル)

This paper presents a dual-channel tactile skin that integrates Electrical Impedance Tomography (EIT) with air pressure sensing to achieve accurate multi-contact force detection. The EIT layer provides spatial contact information, while the air pressure sensor delivers precise total force measurement. Our framework combines these complementary modalities through: deep learning-based EIT image reconstruction, contact area segmentation, and force allocation based on relative conductivity intensities from EIT. The experiments demonstrated 15.1% average force estimation error in single-contact scenarios and 20.1% in multi-contact scenarios without extensive calibration data requirements. This approach effectively addresses the challenge of simultaneously localizing and quantifying multiple contact forces without requiring complex external calibration setups, paving the way for practical and scalable soft robotic skin applications.

arxiv情報

著者 Haofeng Chen,Bedrich Himmel,Jiri Kubik,Matej Hoffmann,Hyosang Lee
発行日 2025-03-17 10:41:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, eess.SP | Large-area Tomographic Tactile Skin with Air Pressure Sensing for Improved Force Estimation はコメントを受け付けていません