A Parameter-Efficient Tuning Framework for Language-guided Object Grounding and Robot Grasping

要約

言語誘導ロボットの把握タスクでは、ロボットエージェントが視覚入力と言語入力の両方からマルチモーダル情報を統合して、ターゲット駆動型の把握のアクションを予測する必要があります。
マルチモーダル大手言語モデル(MLLM)を利用する最近のアプローチは有望な結果を示していますが、その広範な計算とデータの要求は、ローカルの展開とカスタマイズの実現可能性を制限しています。
これに対処するために、3つの言語誘導オブジェクトの接地と把握タスクのために設計された新しいクリップベースのマルチモーダルパラメーター効率の高いチューニング(PET)フレームワークを提案します。
)、および(3)把持アフォーダンス(RGA)を参照します。
私たちのアプローチでは、2つの重要な革新を紹介します。ピクセルレベルの言語理解のマルチモーダル入力を整列させる双方向ビジョン言語アダプターと、幾何学的なキューを組み込んでロボットの把握予測を促進する深度融合分岐です。
実験結果は、既存のクリップベースのフルモデルチューニングまたはPETアプローチと比較して、RESオブジェクトの接地タスクで優れた性能を示しています。
RGSおよびRGAタスクでは、モデルは単純な言語の説明に基づいてオブジェクト属性を効果的に解釈するだけでなく、ワークスペースに存在する複数の同一のオブジェクトなど、複雑な空間的推論シナリオを理解するための強力な可能性を示しています。
プロジェクトページ:https://z.umn.edu/etog-ettg

要約(オリジナル)

The language-guided robot grasping task requires a robot agent to integrate multimodal information from both visual and linguistic inputs to predict actions for target-driven grasping. While recent approaches utilizing Multimodal Large Language Models (MLLMs) have shown promising results, their extensive computation and data demands limit the feasibility of local deployment and customization. To address this, we propose a novel CLIP-based multimodal parameter-efficient tuning (PET) framework designed for three language-guided object grounding and grasping tasks: (1) Referring Expression Segmentation (RES), (2) Referring Grasp Synthesis (RGS), and (3) Referring Grasp Affordance (RGA). Our approach introduces two key innovations: a bi-directional vision-language adapter that aligns multimodal inputs for pixel-level language understanding and a depth fusion branch that incorporates geometric cues to facilitate robot grasping predictions. Experiment results demonstrate superior performance in the RES object grounding task compared with existing CLIP-based full-model tuning or PET approaches. In the RGS and RGA tasks, our model not only effectively interprets object attributes based on simple language descriptions but also shows strong potential for comprehending complex spatial reasoning scenarios, such as multiple identical objects present in the workspace. Project page: https://z.umn.edu/etog-etrg

arxiv情報

著者 Houjian Yu,Mingen Li,Alireza Rezazadeh,Yang Yang,Changhyun Choi
発行日 2025-02-07 05:10:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Parameter-Efficient Tuning Framework for Language-guided Object Grounding and Robot Grasping はコメントを受け付けていません

The Best Instruction-Tuning Data are Those That Fit

要約

高品質の監視された微調整(SFT)データは、前処理された大手言語モデル(LLM)から強力な機能を引き出すために重要です。
通常、指示は他のLLMからサンプリングされた複数の応答とペアになります。これは、微調整されるターゲットモデルの分布から外れていることがよくあります。
これは、大規模に、リターンの減少につながり、モデルのパフォーマンスと堅牢性を損なうことさえあります。
ターゲットモデルのユニークな特性を説明する新しいSFTフレームワークである** Grape **を提案します。
各命令について、さまざまなLLMSから応答を収集し、ターゲットモデルによって測定された確率が最も高いものを選択し、ターゲットモデルの前提条件の分布と最も密接に整合していることを示します。
その後、標準のSFTトレーニングで進みます。
最初に、複数のモデルからultrainteractの各質問のさまざまなソリューションをサンプリングし、グレープ選択でllama3.1-8b、mistral-7b、qwen2.5-7bなどの一般的に使用されるLMSの微調整の各質問のさまざまなソリューションをサンプリングします。
データ。
Grapeは、最大13.8%の絶対的なゲインで最も強力なモデルからの蒸留、ベンチマーク全体で平均され、最大パフォーマンス改善が17.3%である3倍のデータでトレーニングを含む、強力なベースラインを大幅に上回ることを大幅に上回ります。
Grapeの強力なパフォーマンスは、現実的な設定に一般化されます。
TULU3およびOLMO-2に使用されるトレーニング後のデータを実験します。
Grapeは、4.5倍のデータでトレーニングされた強力なベースラインを6.1%上回り、最先端のデータ選択アプローチを平均パフォーマンスで3%上回ります。
驚くべきことに、データの1/3とエポックの半分を使用して、GrapeによりLlama3.1-8BがTulu3-sftの性能を3.5%上回ることができます。

要約(オリジナル)

High-quality supervised fine-tuning (SFT) data are crucial for eliciting strong capabilities from pretrained large language models (LLMs). Typically, instructions are paired with multiple responses sampled from other LLMs, which are often out of the distribution of the target model to be fine-tuned. This, at scale, can lead to diminishing returns and even hurt the models’ performance and robustness. We propose **GRAPE**, a novel SFT framework that accounts for the unique characteristics of the target model. For each instruction, it gathers responses from various LLMs and selects the one with the highest probability measured by the target model, indicating that it aligns most closely with the target model’s pretrained distribution; it then proceeds with standard SFT training. We first evaluate GRAPE with a controlled experiment, where we sample various solutions for each question in UltraInteract from multiple models and fine-tune commonly used LMs like LLaMA3.1-8B, Mistral-7B, and Qwen2.5-7B on GRAPE-selected data. GRAPE significantly outperforms strong baselines, including distilling from the strongest model with an absolute gain of up to 13.8%, averaged across benchmarks, and training on 3x more data with a maximum performance improvement of 17.3%. GRAPE’s strong performance generalizes to realistic settings. We experiment with the post-training data used for Tulu3 and Olmo-2. GRAPE outperforms strong baselines trained on 4.5 times more data by 6.1% and a state-of-the-art data selection approach by 3% on average performance. Remarkably, using 1/3 of the data and half the number of epochs, GRAPE enables LLaMA3.1-8B to surpass the performance of Tulu3-SFT by 3.5%.

arxiv情報

著者 Dylan Zhang,Qirun Dai,Hao Peng
発行日 2025-02-07 02:20:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | The Best Instruction-Tuning Data are Those That Fit はコメントを受け付けていません

Point2RBox-v2: Rethinking Point-supervised Oriented Object Detection with Spatial Layout Among Instances

要約

指向性オブジェクト検出(OOD)に対する需要が急速に増加しているため、ポイントアノテーションからOODを学習するための弱く監視された検出器を含む最近の研究は、大きな注目を集めています。
この論文では、この挑戦​​的なタスク設定をインスタンス間のレイアウトとPoint2Rbox-V2を再考します。
コアには3つの原則があります:1)ガウスのオーバーラップ損失。
オブジェクトを2Dガウス分布として扱い、それらの重複を最小化することにより、各インスタンスの上限を学習します。
2)Voronoi流域損失。
Voronoi Tessellationの流域を介して各インスタンスの下限を学びます。
3)一貫性の損失。
入力画像に関する2つの出力セット間のサイズ/回転の変動とその拡張ビューを学習します。
いくつかの考案された技術によって補足されています。
エッジの損失とコピーパステ、検出器はさらに強化されます。
私たちの最高の知識のために、Point2Rbox-V2は、ポイントスパイブ化されたOODを学習するためのインスタンスの間で空間レイアウトを探索する最初のアプローチです。
私たちのソリューションはエレガントで軽量ですが、特に密集したシーンで競争力のあるパフォーマンスを提供することが期待されています:DOTA/HRSC/FAIR1Mで62.61%/86.15%/34.71%。
コードはhttps://github.com/visionxlab/point2rbox-v2で入手できます。

要約(オリジナル)

With the rapidly increasing demand for oriented object detection (OOD), recent research involving weakly-supervised detectors for learning OOD from point annotations has gained great attention. In this paper, we rethink this challenging task setting with the layout among instances and present Point2RBox-v2. At the core are three principles: 1) Gaussian overlap loss. It learns an upper bound for each instance by treating objects as 2D Gaussian distributions and minimizing their overlap. 2) Voronoi watershed loss. It learns a lower bound for each instance through watershed on Voronoi tessellation. 3) Consistency loss. It learns the size/rotation variation between two output sets with respect to an input image and its augmented view. Supplemented by a few devised techniques, e.g. edge loss and copy-paste, the detector is further enhanced. To our best knowledge, Point2RBox-v2 is the first approach to explore the spatial layout among instances for learning point-supervised OOD. Our solution is elegant and lightweight, yet it is expected to give a competitive performance especially in densely packed scenes: 62.61%/86.15%/34.71% on DOTA/HRSC/FAIR1M. Code is available at https://github.com/VisionXLab/point2rbox-v2.

arxiv情報

著者 Yi Yu,Botao Ren,Peiyuan Zhang,Mingxin Liu,Junwei Luo,Shaofeng Zhang,Feipeng Da,Junchi Yan,Xue Yang
発行日 2025-02-07 02:23:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Point2RBox-v2: Rethinking Point-supervised Oriented Object Detection with Spatial Layout Among Instances はコメントを受け付けていません

TD-M(PC)$^2$: Improving Temporal Difference MPC Through Policy Constraint

要約

モデルベースの計画を組み合わせたモデルベースの強化学習アルゴリズムと、事前に学習した価値/ポリシーは、高データ効率と継続的な制御における優れたパフォーマンスについて大きな認識を獲得しました。
ただし、プランナーによって生成されたデータを直接使用して、価値学習のための標準のSACスタイルのポリシー反復に依存する既存の方法が、多くの場合、\ emph {永続的な価値過剰を過大評価}にすることが多いことがわかります。
理論的分析と実験を通じて、この問題は、プランナーによって常にブートストラップされているデータ生成ポリシーと以前の学習ポリシーの構造ポリシーの不一致に深く根ざしていると主張します。
このような不一致をミニマリストに軽減するために、配布不足(OOD)クエリを削減するポリシーの正則化の用語を提案し、それにより価値学習を改善します。
私たちの方法には、既存のフレームワークの上に最小限の変更が含まれ、追加の計算は必要ありません。
広範な実験は、提案されたアプローチが、特に61-DOFヒューマノイドタスクで、TD-MPC2などのベースライン上のパフォーマンスを大きなマージンで改善することを示しています。
https://darthutopian.github.io/tdmpc_square/で定性的な結果を表示します。

要約(オリジナル)

Model-based reinforcement learning algorithms that combine model-based planning and learned value/policy prior have gained significant recognition for their high data efficiency and superior performance in continuous control. However, we discover that existing methods that rely on standard SAC-style policy iteration for value learning, directly using data generated by the planner, often result in \emph{persistent value overestimation}. Through theoretical analysis and experiments, we argue that this issue is deeply rooted in the structural policy mismatch between the data generation policy that is always bootstrapped by the planner and the learned policy prior. To mitigate such a mismatch in a minimalist way, we propose a policy regularization term reducing out-of-distribution (OOD) queries, thereby improving value learning. Our method involves minimum changes on top of existing frameworks and requires no additional computation. Extensive experiments demonstrate that the proposed approach improves performance over baselines such as TD-MPC2 by large margins, particularly in 61-DoF humanoid tasks. View qualitative results at https://darthutopian.github.io/tdmpc_square/.

arxiv情報

著者 Haotian Lin,Pengcheng Wang,Jeff Schneider,Guanya Shi
発行日 2025-02-05 19:08:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | TD-M(PC)$^2$: Improving Temporal Difference MPC Through Policy Constraint はコメントを受け付けていません

Simultaneous Multi-Robot Motion Planning with Projected Diffusion Models

要約

拡散モデルの最近の進歩は、ロボット工学に大きな可能性を秘めており、環境の生の表現から直接多様で滑らかな軌跡を生成することを可能にします。
この約束にもかかわらず、衝突回避や運動学的実現可能性など、重要な制約を実施するのが困難なため、拡散モデルをモーション計画に適用することは依然として困難です。
These limitations become even more pronounced in Multi-Robot Motion Planning (MRMP), where multiple robots must coordinate in shared spaces.
この課題に対処するために、この作業は同時MRMP拡散(SMD)を提案します。これは、制約された最適化を拡散サンプリングプロセスに統合し、衝突のない運動的に実行可能な軌跡を生成する新しいアプローチです。
さらに、このペーパーでは、さまざまなロボット密度、障害物の複雑さ、および動きの制約を備えたシナリオ全体の軌跡計画アルゴリズムを評価するための包括的なMRMPベンチマークを導入しています。
実験結果は、SMDが一貫してクラシックおよび学習ベースのモーションプランナーを上回り、複雑なマルチロボット環境でより高い成功率と効率を達成することを示しています。

要約(オリジナル)

Recent advances in diffusion models hold significant potential in robotics, enabling the generation of diverse and smooth trajectories directly from raw representations of the environment. Despite this promise, applying diffusion models to motion planning remains challenging due to their difficulty in enforcing critical constraints, such as collision avoidance and kinematic feasibility. These limitations become even more pronounced in Multi-Robot Motion Planning (MRMP), where multiple robots must coordinate in shared spaces. To address this challenge, this work proposes Simultaneous MRMP Diffusion (SMD), a novel approach integrating constrained optimization into the diffusion sampling process to produce collision-free, kinematically feasible trajectories. Additionally, the paper introduces a comprehensive MRMP benchmark to evaluate trajectory planning algorithms across scenarios with varying robot densities, obstacle complexities, and motion constraints. Experimental results show SMD consistently outperforms classical and learning-based motion planners, achieving higher success rates and efficiency in complex multi-robot environments.

arxiv情報

著者 Jinhao Liang,Jacob K Christopher,Sven Koenig,Ferdinando Fioretto
発行日 2025-02-05 20:51:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Simultaneous Multi-Robot Motion Planning with Projected Diffusion Models はコメントを受け付けていません

Discrete GCBF Proximal Policy Optimization for Multi-agent Safe Optimal Control

要約

マルチエージェントシステム(MAS)を含むあらゆるシステムにとって、高いタスクのパフォーマンスを実現し、安全性の制約を満たすことができる制御ポリシーが望ましいです。
MASの安全性を保証するための1つの有望な手法は、分散制御バリア関数(CBF)です。
ただし、特にタスクを達成できる分散高性能公称ポリシーが利用できない場合、未知の離散時間ダイナミクス、部分的な観測可能性、近隣の変化、および入力制約に取り組むことができるMAS向けの分散CBFベースのポリシーを設計することは困難です。
これらの課題に取り組むために、DGPPOを提案します。DGPPOは、近隣の変更と入力制約を処理する離散グラフCBFと、未知の離散時間ダイナミクスを持つMASの分散高性能安全ポリシーの両方を同時に学習する新しいフレームワークです。
3つの異なるシミュレーションエンジンにまたがる一連のマルチエージェントタスクに関する主張を経験的に検証します。
結果は、既存の方法と比較して、当社のDGPPOフレームワークは、高いタスクパフォ​​ーマンス(安全性の制約を無視するベースラインを一致させる)と高い安全レート(最も保守的なベースラインと一致する)を達成するポリシーを取得することを示唆しています。
環境。

要約(オリジナル)

Control policies that can achieve high task performance and satisfy safety constraints are desirable for any system, including multi-agent systems (MAS). One promising technique for ensuring the safety of MAS is distributed control barrier functions (CBF). However, it is difficult to design distributed CBF-based policies for MAS that can tackle unknown discrete-time dynamics, partial observability, changing neighborhoods, and input constraints, especially when a distributed high-performance nominal policy that can achieve the task is unavailable. To tackle these challenges, we propose DGPPO, a new framework that simultaneously learns both a discrete graph CBF which handles neighborhood changes and input constraints, and a distributed high-performance safe policy for MAS with unknown discrete-time dynamics. We empirically validate our claims on a suite of multi-agent tasks spanning three different simulation engines. The results suggest that, compared with existing methods, our DGPPO framework obtains policies that achieve high task performance (matching baselines that ignore the safety constraints), and high safety rates (matching the most conservative baselines), with a constant set of hyperparameters across all environments.

arxiv情報

著者 Songyuan Zhang,Oswin So,Mitchell Black,Chuchu Fan
発行日 2025-02-05 21:51:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Discrete GCBF Proximal Policy Optimization for Multi-agent Safe Optimal Control はコメントを受け付けていません

Control-oriented Clustering of Visual Latent Representation

要約

視覚表現空間のジオメトリ(Visionエンコーダーからアクションデコーダーまでの情報チャネル)の研究を開始します – 動作のクローニングから学んだ画像ベースのコントロールパイプライン。
画像分類(ARXIV:2008.08186)の神経崩壊(NC)の現象に触発され、視覚表現空間におけるクラスタリングの同様の法則の一般的な出現を経験的に実証します。
具体的には、個別の画像ベースのコントロール(例えば、Lunar Lander)では、視覚表現は、自然な離散アクションラベルに従ってクラスターになります。
連続画像ベースのコントロール(例:平面の押し込みと積み重ねをブロックするなど)では、(a)入力または(b)のオブジェクトとターゲットとの相対的なポーズに基づいた「制御指向」クラスに従ってクラスタリングが出現します。
出力での専門家のアクションによって誘導されるオブジェクトの相対ポーズ。
各クラスは、1つの相対ポーズオルサント(レポ)に対応しています。
経験的観察を超えて、限られた専門家デモンストレーションでポリシーをトレーニングする際にテスト時間パフォーマンスを改善するためのアルゴリズムツールとしてクラスタリングの法則を活用できることを示します。
特に、視覚機能の制御指向のクラスタリングを促進するために、正規化としてNCを使用してビジョンエンコーダーを前処理します。
驚くべきことに、アクションデコーダーを使用してエンドツーエンドを獲得すると、このようなNC-Prestrained Visionエンコーダーは、テスト時間のパフォーマンスを10%から35%増加させます。
現実世界の視覚ベースの平面プッシュ実験により、制御指向の視覚表現の前提の驚くべき利点が確認されました。

要約(オリジナル)

We initiate a study of the geometry of the visual representation space — the information channel from the vision encoder to the action decoder — in an image-based control pipeline learned from behavior cloning. Inspired by the phenomenon of neural collapse (NC) in image classification (arXiv:2008.08186), we empirically demonstrate the prevalent emergence of a similar law of clustering in the visual representation space. Specifically, in discrete image-based control (e.g., Lunar Lander), the visual representations cluster according to the natural discrete action labels; in continuous image-based control (e.g., Planar Pushing and Block Stacking), the clustering emerges according to ‘control-oriented’ classes that are based on (a) the relative pose between the object and the target in the input or (b) the relative pose of the object induced by expert actions in the output. Each of the classes corresponds to one relative pose orthant (REPO). Beyond empirical observation, we show such a law of clustering can be leveraged as an algorithmic tool to improve test-time performance when training a policy with limited expert demonstrations. Particularly, we pretrain the vision encoder using NC as a regularization to encourage control-oriented clustering of the visual features. Surprisingly, such an NC-pretrained vision encoder, when finetuned end-to-end with the action decoder, boosts the test-time performance by 10% to 35%. Real-world vision-based planar pushing experiments confirmed the surprising advantage of control-oriented visual representation pretraining.

arxiv情報

著者 Han Qi,Haocheng Yin,Heng Yang
発行日 2025-02-05 22:12:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Control-oriented Clustering of Visual Latent Representation はコメントを受け付けていません

Fast Ergodic Search with Kernel Functions

要約

Ergodic Searchにより、検索スペースの漸近カバレッジを保証しながら、情報分布を最適に探索できます。
ただし、現在の方法では、通常、検索空間の次元に指数計算の複雑さがあり、ユークリッド空間に制限されています。
計算効率の良いエルゴード検索方法を紹介します。
私たちの貢献は2つあります。
まず、カーネルベースのエルゴードメトリックを開発し、ユークリッドスペースからグループ化するグループを一般化します。
提案されたメトリックが標準のエルゴジックメトリックと一致している一方で、検索空間の次元の線形複雑さを保証することを正式に証明します。
第二に、効率的な軌道最適化を可能にする非線形システムのカーネルエルゴジックメトリックの1次最適性条件を導き出します。
包括的な数値ベンチマークは、提案された方法が最先端のアルゴリズムよりも少なくとも2桁高速であることを示しています。
最後に、PEGインホール挿入タスクを備えた提案されたアルゴリズムを示します。
SE(3)の空間でのカバレッジタスクとして問題を定式化し、30秒間の人間のデモを使用して、エルゴジックなカバレッジの事前分布として使用します。
ergodicityは、ソリューションが100%の成功率に見られる以前の情報分布内にある限り、ペグ内の問題の漸近溶液を保証します。

要約(オリジナル)

Ergodic search enables optimal exploration of an information distribution while guaranteeing the asymptotic coverage of the search space. However, current methods typically have exponential computation complexity in the search space dimension and are restricted to Euclidean space. We introduce a computationally efficient ergodic search method. Our contributions are two-fold. First, we develop a kernel-based ergodic metric and generalize it from Euclidean space to Lie groups. We formally prove the proposed metric is consistent with the standard ergodic metric while guaranteeing linear complexity in the search space dimension. Secondly, we derive the first-order optimality condition of the kernel ergodic metric for nonlinear systems, which enables efficient trajectory optimization. Comprehensive numerical benchmarks show that the proposed method is at least two orders of magnitude faster than the state-of-the-art algorithm. Finally, we demonstrate the proposed algorithm with a peg-in-hole insertion task. We formulate the problem as a coverage task in the space of SE(3) and use a 30-second-long human demonstration as the prior distribution for ergodic coverage. Ergodicity guarantees the asymptotic solution of the peg-in-hole problem so long as the solution resides within the prior information distribution, which is seen in the 100% success rate.

arxiv情報

著者 Max Muchen Sun,Ayush Gaggar,Peter Trautman,Todd Murphey
発行日 2025-02-05 22:27:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Fast Ergodic Search with Kernel Functions はコメントを受け付けていません

Gravity Compensation of the dVRK-Si Patient Side Manipulator based on Dynamic Model Identification

要約

The da Vinci Research Kit (dVRK, also known as dVRK Classic) is an open-source teleoperated surgical robotic system whose hardware is obtained from the first generation da Vinci Surgical System (Intuitive, Sunnyvale, CA, USA).
The dVRK has greatly facilitated research in robot-assisted surgery over the past decade and helped researchers address multiple major challenges in this domain.
Recently, the dVRK-Si system, a new version of the dVRK which uses mechanical components from the da Vinci Si Surgical System, became available to the community.
第一世代のダ・ヴィンチとダ・ヴィンチ・シーの主な違いは、患者側操縦剤(PSM)の構造的アップグレードにあります。
このアップグレードのため、DVRK-Si PSMの重力はDVRKクラシックのように無視することはできません。
重力オフセットが高いと、制御精度が比較的低く、応答時間が長くなる可能性があります。
さらに、DVRKクラシックの動的モデル識別問題に対処する際に大きな進歩が遂げられていますが、機械的成分の違いと制御性能の向上の需要のため、DVRK-SIのモデルベースの制御に関するさらなる研究が必要です。
これらの問題に対処するために、この作業では、(1)DVRK-SI PSMの新しい完全な運動モデルと、(2)動的モデルの識別に基づく重力補償アプローチを提示します。

要約(オリジナル)

The da Vinci Research Kit (dVRK, also known as dVRK Classic) is an open-source teleoperated surgical robotic system whose hardware is obtained from the first generation da Vinci Surgical System (Intuitive, Sunnyvale, CA, USA). The dVRK has greatly facilitated research in robot-assisted surgery over the past decade and helped researchers address multiple major challenges in this domain. Recently, the dVRK-Si system, a new version of the dVRK which uses mechanical components from the da Vinci Si Surgical System, became available to the community. The major difference between the first generation da Vinci and the da Vinci Si is in the structural upgrade of the Patient Side Manipulator (PSM). Because of this upgrade, the gravity of the dVRK-Si PSM can no longer be ignored as in the dVRK Classic. The high gravity offset may lead to relatively low control accuracy and longer response time. In addition, although substantial progress has been made in addressing the dynamic model identification problem for the dVRK Classic, further research is required on model-based control for the dVRK-Si, due to differences in mechanical components and the demand for enhanced control performance. To address these problems, in this work, we present (1) a novel full kinematic model of the dVRK-Si PSM, and (2) a gravity compensation approach based on the dynamic model identification.

arxiv情報

著者 Haoying Zhou,Hao Yang,Anton Deguet,Loris Fichera,Jie Ying Wu,Peter Kazanzides
発行日 2025-02-05 23:45:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Gravity Compensation of the dVRK-Si Patient Side Manipulator based on Dynamic Model Identification はコメントを受け付けていません

Anytime Planning for End-Effector Trajectory Tracking

要約

エンドエフェクターの軌跡追跡アルゴリズムは、ロボットマニピュレーターを参照軌跡を追跡するように駆動する共同動きを見つけます。
実際のシナリオでは、いつでもアルゴリズムが初期の動きを迅速に生成し、時間の経過とともに継続的に改良する能力に優先されます。
この論文では、一般的なグラフベースの軌跡追跡アルゴリズムをいつでも適応させ、効率と有効性を高めるアルゴリズムフレームワークを紹介します。
私たちの重要な洞察は、参照軌道をほぼ追跡し、ガイドパスに向けてサンプリングを戦略的にバイアスするガイドパスを特定することです。
2つの既存のグラフベースの軌跡追跡アルゴリズムを再構築し、3つの実験で更新されたアルゴリズムを評価することにより、提案されたフレームワークの有効性を実証します。

要約(オリジナル)

End-effector trajectory tracking algorithms find joint motions that drive robot manipulators to track reference trajectories. In practical scenarios, anytime algorithms are preferred for their ability to quickly generate initial motions and continuously refine them over time. In this paper, we present an algorithmic framework that adapts common graph-based trajectory tracking algorithms to be anytime and enhances their efficiency and effectiveness. Our key insight is to identify guide paths that approximately track the reference trajectory and strategically bias sampling toward the guide paths. We demonstrate the effectiveness of the proposed framework by restructuring two existing graph-based trajectory tracking algorithms and evaluating the updated algorithms in three experiments.

arxiv情報

著者 Yeping Wang,Michael Gleicher
発行日 2025-02-05 23:49:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Anytime Planning for End-Effector Trajectory Tracking はコメントを受け付けていません