Predicate Hierarchies Improve Few-Shot State Classification

要約

オブジェクトとその関係の州の分類は、特にロボットの計画と操作において、多くの長老のタスクの中心です。
ただし、新しい実世界環境に適応する必要性と相まって、可能なオブジェクトプレジョンの組み合わせの組み合わせ爆発により、州分類モデルが少数の例を持つ新しいクエリに一般化することを要求することになります。
この目的のために、Phierを提案します。Phierは、いくつかのショットシナリオで効果的に一般化するために述語階層を活用することを提案します。
Phierは、述語間の意味関係を推測するオブジェクト中心のシーンエンコーダー、自己監視された損失、および階層構造をキャプチャする双曲線距離メトリックを使用します。
州の分類クエリを介して推論を導く画像予測ペアの構造化された潜在スペースを学習します。
カルバンおよび行動ロボット環境のPhierを評価し、Phierが既存のメソッドを少ないショットで分散していない状態分類で大幅に上回り、シミュレーションから現実世界のタスクまで強いゼロおよび少ないショットの一般化を示していることを示しています。
我々の結果は、述語階層を活用すると、データが限られている状態分類タスクのパフォーマンスが向上することを示しています。

要約(オリジナル)

State classification of objects and their relations is core to many long-horizon tasks, particularly in robot planning and manipulation. However, the combinatorial explosion of possible object-predicate combinations, coupled with the need to adapt to novel real-world environments, makes it a desideratum for state classification models to generalize to novel queries with few examples. To this end, we propose PHIER, which leverages predicate hierarchies to generalize effectively in few-shot scenarios. PHIER uses an object-centric scene encoder, self-supervised losses that infer semantic relations between predicates, and a hyperbolic distance metric that captures hierarchical structure; it learns a structured latent space of image-predicate pairs that guides reasoning over state classification queries. We evaluate PHIER in the CALVIN and BEHAVIOR robotic environments and show that PHIER significantly outperforms existing methods in few-shot, out-of-distribution state classification, and demonstrates strong zero- and few-shot generalization from simulated to real-world tasks. Our results demonstrate that leveraging predicate hierarchies improves performance on state classification tasks with limited data.

arxiv情報

著者 Emily Jin,Joy Hsu,Jiajun Wu
発行日 2025-02-18 03:08:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Predicate Hierarchies Improve Few-Shot State Classification はコメントを受け付けていません

USPilot: An Embodied Robotic Assistant Ultrasound System with Large Language Model Enhanced Graph Planner

要約

大規模な言語モデル(LLMS)の時代では、具体化された人工知能は、ロボット操作タスクの変革的な機会を提供します。
広く使用されており、費用対効果の高い医療診断手順である超音波イメージングは​​、プロの超音波検査学者の世界的不足により課題に直面しています。
この問題に対処するために、自律的な超音波取得を可能にするためにLLMベースのフレームワークを搭載した具体化されたロボットアシスタント超音波システムであるUspilotを提案します。
Uspilotは、仮想ソノグラファーとして機能するように設計されており、患者の超音波関連クエリに対応し、ユーザーの意図に基づいて超音波スキャンを実行できます。
LLMを微調整することにより、Uspilotは超音波固有の質問とタスクを深く理解しています。
さらに、UspilotにはLLM強化グラフニューラルネットワーク(GNN)が組み込まれており、超音波ロボットAPIを管理し、タスクプランナーとして機能します。
実験結果は、LLM強化GNNがパブリックデータセットのタスク計画において前例のない精度を達成することを示しています。
さらに、このシステムは、超音波手順を自律的に理解および実行することにおいて重要な可能性を示しています。
これらの進歩により、自律的で潜在的に無人のロボット超音波システムの達成に近づき、医療イメージングの重要なリソースギャップに対処します。

要約(オリジナル)

In the era of Large Language Models (LLMs), embodied artificial intelligence presents transformative opportunities for robotic manipulation tasks. Ultrasound imaging, a widely used and cost-effective medical diagnostic procedure, faces challenges due to the global shortage of professional sonographers. To address this issue, we propose USPilot, an embodied robotic assistant ultrasound system powered by an LLM-based framework to enable autonomous ultrasound acquisition. USPilot is designed to function as a virtual sonographer, capable of responding to patients’ ultrasound-related queries and performing ultrasound scans based on user intent. By fine-tuning the LLM, USPilot demonstrates a deep understanding of ultrasound-specific questions and tasks. Furthermore, USPilot incorporates an LLM-enhanced Graph Neural Network (GNN) to manage ultrasound robotic APIs and serve as a task planner. Experimental results show that the LLM-enhanced GNN achieves unprecedented accuracy in task planning on public datasets. Additionally, the system demonstrates significant potential in autonomously understanding and executing ultrasound procedures. These advancements bring us closer to achieving autonomous and potentially unmanned robotic ultrasound systems, addressing critical resource gaps in medical imaging.

arxiv情報

著者 Mingcong Chen,Siqi Fan,Guanglin Cao,Hongbin Liu
発行日 2025-02-18 03:24:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | USPilot: An Embodied Robotic Assistant Ultrasound System with Large Language Model Enhanced Graph Planner はコメントを受け付けていません

Gradient-based Trajectory Optimization with Parallelized Differentiable Traffic Simulation

要約

インテリジェントドライバーモデル(IDM)に基づいた並列化された微分可能なトラフィックシミュレーターを提示します。これは、ドライバーの動作を主要な変数として組み込んだ車に従うフレームワークです。
当社の車両シミュレーターは、車両の動きを効率的にモデル化し、実際のデータに適合するように監視できる軌跡を生成します。
微分可能性を活用することにより、IDMパラメーターは勾配ベースの方法を使用して最適化されます。
リアルタイムで最大200万台の車両をシミュレートする機能により、このシステムは大規模な軌跡の最適化のためにスケーラブルです。
シミュレーターを使用して、入力軌跡(軌跡フィルタリング)のノイズをフィルタリングし、スパースの軌跡(軌跡の再構成)から密な軌跡を再構築し、身体法に付着したすべての生成された軌道で将来の軌跡(軌跡予測)を予測できることを示します。
NGSIMやWaymo Open Datasetなど、いくつかのデータセットでシミュレーターとアルゴリズムを検証します。
このコードは、https://github.com/sonsang/diffidmで公開されています。

要約(オリジナル)

We present a parallelized differentiable traffic simulator based on the Intelligent Driver Model (IDM), a car-following framework that incorporates driver behavior as key variables. Our vehicle simulator efficiently models vehicle motion, generating trajectories that can be supervised to fit real-world data. By leveraging its differentiable nature, IDM parameters are optimized using gradient-based methods. With the capability to simulate up to 2 million vehicles in real time, the system is scalable for large-scale trajectory optimization. We show that we can use the simulator to filter noise in the input trajectories (trajectory filtering), reconstruct dense trajectories from sparse ones (trajectory reconstruction), and predict future trajectories (trajectory prediction), with all generated trajectories adhering to physical laws. We validate our simulator and algorithm on several datasets including NGSIM and Waymo Open Dataset. The code is publicly available at: https://github.com/SonSang/diffidm.

arxiv情報

著者 Sanghyun Son,Laura Zheng,Brian Clipp,Connor Greenwell,Sujin Philip,Ming C. Lin
発行日 2025-02-18 03:28:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, cs.RO | Gradient-based Trajectory Optimization with Parallelized Differentiable Traffic Simulation はコメントを受け付けていません

Memory-updated-based Framework for 100% Reliable Flexible Flat Cables Insertion

要約

自動アセンブリラインは、さまざまなタスクで人間の労働をますます置き換えています。
ただし、柔軟なフラットケーブル(FFC)挿入の自動化は、効果的なフィードバックと動的操作のための必要な要件が高いため、未実現のままです。
視覚ベースの触覚センサーや補強学習など、多くのアプローチが提案されているにもかかわらず、人間のような高信頼性の挿入の実装(つまり、挿入が完了した100%の成功率)の実装は大きな課題です。
FFC挿入における人間の行動からインスピレーションを得て、3次元の力を検知し、物理的概念に変換し、推定を継続的に改善することを伴い、新しいフレームワークを提案します。
このフレームワークには、3次元の触覚データを収集するためのセンシングモジュール、このデータを意味のある物理シグナルに解釈するための知覚モジュール、および信頼性の推定と制御のためのベイジアン理論に基づくメモリモジュールが含まれます。
この戦略により、ロボットは物理状態を正確に評価し、信頼できるステータスの推定と是正措置を生成することができます。
実験結果は、このフレームワークを使用してロボットが97.92%の精度で0.5 mmのアライメントエラーを検出し、数回の繰り返しの後にすべての完了したテストで100%の成功率を達成できることを示しています。
この作業は、複雑な挿入タスクにおける信頼できない知覚と制御の課題に対処し、完全に自動化された生産ラインの開発への道を強調しています。

要約(オリジナル)

Automatic assembly lines have increasingly replaced human labor in various tasks; however, the automation of Flexible Flat Cable (FFC) insertion remains unrealized due to its high requirement for effective feedback and dynamic operation, limiting approximately 11% of global industrial capacity. Despite lots of approaches, like vision-based tactile sensors and reinforcement learning, having been proposed, the implementation of human-like high-reliable insertion (i.e., with a 100% success rate in completed insertion) remains a big challenge. Drawing inspiration from human behavior in FFC insertion, which involves sensing three-dimensional forces, translating them into physical concepts, and continuously improving estimates, we propose a novel framework. This framework includes a sensing module for collecting three-dimensional tactile data, a perception module for interpreting this data into meaningful physical signals, and a memory module based on Bayesian theory for reliability estimation and control. This strategy enables the robot to accurately assess its physical state and generate reliable status estimations and corrective actions. Experimental results demonstrate that the robot using this framework can detect alignment errors of 0.5 mm with an accuracy of 97.92% and then achieve a 100% success rate in all completed tests after a few iterations. This work addresses the challenges of unreliable perception and control in complex insertion tasks, highlighting the path toward the development of fully automated production lines.

arxiv情報

著者 Zhengrong Ling,Xiong Yang,Dong Guo,Hongyuan Chang,Tieshan Zhang,Ruijia Zhang,Yajing Shen
発行日 2025-02-18 04:00:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Memory-updated-based Framework for 100% Reliable Flexible Flat Cables Insertion はコメントを受け付けていません

GSCE: A Prompt Framework with Enhanced Reasoning for Reliable LLM-driven Drone Control

要約

ドローンを含む大規模な言語モデル(LLMS)のロボット制御への統合は、自律システムに革命をもたらす可能性があります。
調査研究では、LLMを活用してロボット操作をサポートできることが実証されています。
ただし、複雑な推論でタスクに直面する場合、LLMSが生成するソリューションの信頼性について懸念と課題が提起されます。
この論文では、ドローンの信頼性の高いLLM駆動型制御を可能にするための強化された推論を備えた迅速なフレームワークを提案します。
私たちのフレームワークは、ガイドライン、スキルAPI、制約、つまりGSCEを使用して設計された新しい技術コンポーネントで構成されています。
GSCEは、信頼できる制約に準拠したコード生成によって紹介されています。
GSCEを使用して、幅広いレベルのタスクの複雑さを備えたドローンの制御のために徹底的な実験を行いました。
私たちの実験結果は、GSCEがベースラインアプローチと比較してタスクの成功率と完全性を大幅に改善できることを示しており、信頼性の高いLLM駆動型の自律ドローンシステムの可能性を強調しています。

要約(オリジナル)

The integration of Large Language Models (LLMs) into robotic control, including drones, has the potential to revolutionize autonomous systems. Research studies have demonstrated that LLMs can be leveraged to support robotic operations. However, when facing tasks with complex reasoning, concerns and challenges are raised about the reliability of solutions produced by LLMs. In this paper, we propose a prompt framework with enhanced reasoning to enable reliable LLM-driven control for drones. Our framework consists of novel technical components designed using Guidelines, Skill APIs, Constraints, and Examples, namely GSCE. GSCE is featured by its reliable and constraint-compliant code generation. We performed thorough experiments using GSCE for the control of drones with a wide level of task complexities. Our experiment results demonstrate that GSCE can significantly improve task success rates and completeness compared to baseline approaches, highlighting its potential for reliable LLM-driven autonomous drone systems.

arxiv情報

著者 Wenhao Wang,Yanyan Li,Long Jiao,Jiawei Yuan
発行日 2025-02-18 04:35:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | GSCE: A Prompt Framework with Enhanced Reasoning for Reliable LLM-driven Drone Control はコメントを受け付けていません

Design and Implementation of a Dual Uncrewed Surface Vessel Platform for Bathymetry Research under High-flow Conditions

要約

水中トポグラフィーの研究である海底地域は、水没した構造のソナーマッピングに依存しています。
インフラストラクチャの健康監視に重要なこれらの測定は、多くの場合、高価な計装が必要です。
センサーの損傷または血管損失に関連する高い財政的リスクは、海底地形のために不規則な表面容器(USV)を展開することを嫌がります。
ただし、乗組員は費用がかかり、人員に危険をもたらし、特に高流の下での海底地形データ収集に必要な安定した条件を達成できないことがよくあります。
自律的な制御、ナビゲーション、およびデータ処理技術を前進させるためには、さらに研究が不可欠です。
データの評価と処理だけでなく、水域に焦点を当てた自律制御とナビゲーションの両方で統合された研究を可能にするアクセス可能なハードウェアプラットフォームが顕著に不足しています。
このペーパーでは、不規則な海底地形研究に合わせた2つの補完的なUSVシステムの設計と実装を通じてこのギャップに取り組んでいます。
これには、ナビゲーションおよび制御研究のための低コストのUSV(NAC-USV)と、高解像度マルチビームソナーを備えた2番目のハイエンドUSVと、水域データ品質評価と後処理研究のための関連するハードウェアが含まれます(
bep-usv)。
NAC-USVは、自律的でフェイルセーフナビゲーションと制御の調査を促進し、高品質の海水測定データ収集の安定性要件を強調し、機器のリスクを最小限に抑えます。
NAC-USVハードウェアを反映したBEP-USVは、追加の制御検証と海底地形データ評価と後処理方法論の詳細な調査に使用されます。
両方のシステムの設計と実装、および設計のオープンソースについて詳しく説明します。
さらに、さまざまな運用シナリオでシステムの有効性を示します。

要約(オリジナル)

Bathymetry, the study of underwater topography, relies on sonar mapping of submerged structures. These measurements, critical for infrastructure health monitoring, often require expensive instrumentation. The high financial risk associated with sensor damage or vessel loss creates a reluctance to deploy uncrewed surface vessels (USVs) for bathymetry. However, the crewed-boat bathymetry operations, are costly, pose hazards to personnel, and frequently fail to achieve the stable conditions necessary for bathymetry data collection, especially under high currents. Further research is essential to advance autonomous control, navigation, and data processing technologies, with a particular focus on bathymetry. There is a notable lack of accessible hardware platforms that allow for integrated research in both bathymetry-focused autonomous control and navigation, as well as data evaluation and processing. This paper addresses this gap through the design and implementation of two complementary USV systems tailored for uncrewed bathymetry research. This includes a low-cost USV for Navigation And Control research (NAC-USV) and a second, high-end USV equipped with a high-resolution multi-beam sonar and the associated hardware for Bathymetry data quality Evaluation and Post-processing research (BEP-USV). The NAC-USV facilitates the investigation of autonomous, fail-safe navigation and control, emphasizing the stability requirements for high-quality bathymetry data collection while minimizing the risk to equipment. The BEP-USV, which mirrors the NAC-USV hardware, is then used for additional control validation and in-depth exploration of bathymetry data evaluation and post-processing methodologies. We detail the design and implementation of both systems, and open source the design. Furthermore, we demonstrate the system’s effectiveness in a range of operational scenarios.

arxiv情報

著者 Dinesh Kumar,Amin Ghorbanpour,Kin Yen,Iman Soltani
発行日 2025-02-18 05:01:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | Design and Implementation of a Dual Uncrewed Surface Vessel Platform for Bathymetry Research under High-flow Conditions はコメントを受け付けていません

Motion planning for highly-dynamic unconditioned reflexes based on chained Signed Distance Functions

要約

生物の生来の反応であり、通常は脳ではなく脊髄を介して行われる無条件反射(保護反射など)は、生物が環境からの害を逃れることを可能にすることができます。
この論文では、人間や環境に対するダイナミックの無条件の反射性をマニピュレーターに与えるためのオンラインで非常にダイナミックなモーション計画アルゴリズムを提案します。
私たちの方法は、署名された距離関数(SDFS)のチェーンバージョンに基づいており、事前に計算されて保存できます。
提案されたアルゴリズムは2つの段階に分かれています。
オフライン段階では、マニピュレーターとその作業環境の幾何学的情報を保存するために、ローカルSDFの3つのグループを作成します。
オンライン段階では、環境に関するグローバルな幾何学的情報を提供するために、マニピュレーターの構成に応じて、事前に計算されたローカルSDFが一緒にチェーンされます。
一方、動的オブジェクトのポイントクラウドはクエリポイントとして機能し、これらのローカルSDFを検索して、エスケープ速度を迅速に生成します。
次に、修正された幾何学的なヤコビアンマトリックスを提案し、ヤコビアンと思わずの逆方向の方法を使用してリアルタイムの反射行動を生成して、環境の静的および動的な障害を回避します。
この方法の利点は、静的シナリオと動的シナリオの両方で検証されています。
静的シナリオでは、我々の方法では、既存のソリューションと比較して、時間の消費量が少なく、軌道の長さが短いパスソリューションを識別します。
動的なシナリオでは、私たちの方法は動的なターゲットポイントを確実に追求し、動的な障害を避け、1MS以内のこれらの障害に反応し、人間の無条件反射反応時間を超えることができます。

要約(オリジナル)

The unconditioned reflex (e.g., protective reflex), which is the innate reaction of the organism and usually performed through the spinal cord rather than the brain, can enable organisms to escape harms from environments. In this paper, we propose an online, highly-dynamic motion planning algorithm to endow manipulators the highly-dynamic unconditioned reflexes to humans and/or environments. Our method is based on a chained version of Signed Distance Functions (SDFs), which can be pre-computed and stored. Our proposed algorithm is divided into two stages. In the offline stage, we create 3 groups of local SDFs to store the geometric information of the manipulator and its working environment. In the online stage, the pre-computed local SDFs are chained together according the configuration of the manipulator, to provide global geometric information about the environment. While the point clouds of the dynamic objects serve as query points to look up these local SDFs for quickly generating escape velocity. Then we propose a modified geometric Jacobian matrix and use the Jacobian-pseudo-inverse method to generate real-time reflex behaviors to avoid the static and dynamic obstacles in the environment. The benefits of our method are validated in both static and dynamic scenarios. In the static scenario, our method identifies the path solutions with lower time consumption and shorter trajectory length compared to existing solutions. In the dynamic scenario, our method can reliably pursue the dynamic target point, avoid dynamic obstacles, and react to these obstacles within 1ms, which surpasses the unconditioned reflex reaction time of humans.

arxiv情報

著者 Ken Lin,Qi Ye,Tin Lun Lam,Zhibin Li,Jiming Chen,Gaofeng Li
発行日 2025-02-18 06:33:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Motion planning for highly-dynamic unconditioned reflexes based on chained Signed Distance Functions はコメントを受け付けていません

Learning a High-quality Robotic Wiping Policy Using Systematic Reward Analysis and Visual-Language Model Based Curriculum

要約

自律的なロボット拭き取りは、産業製造から医療の消毒に至るまで、さまざまな業界で重要な作業です。
ディープ補強学習(Deep RL)は有望なアルゴリズムとして浮上していますが、多くの場合、繰り返し報酬エンジニアリングに対する高い需要に苦しんでいます。
手動チューニングに依存する代わりに、まず、高品質のワイピングと高速タスクの完了の両方を必要とする品質批判的なロボットワイピングの収束を分析し、問題の収束が不十分であることを示し、問題を発生させるための新しい境界報酬の定式化を提案します。
実行可能。
次に、新しい視覚言語モデル(VLM)ベースのカリキュラムを提案することにより、学習プロセスをさらに改善します。これは、進捗を積極的に監視し、ハイパーパラメーターの調整を提案することを提案します。
結合された方法では、ベースライン定式化では学習できないさまざまな曲率、摩擦、ウェイポイントを備えた表面に望ましいワイプポリシーを見つけることができることを実証します。
このプロジェクトのデモは、https://sites.google.com/view/highqualitywipingにあります。

要約(オリジナル)

Autonomous robotic wiping is an important task in various industries, ranging from industrial manufacturing to sanitization in healthcare. Deep reinforcement learning (Deep RL) has emerged as a promising algorithm, however, it often suffers from a high demand for repetitive reward engineering. Instead of relying on manual tuning, we first analyze the convergence of quality-critical robotic wiping, which requires both high-quality wiping and fast task completion, to show the poor convergence of the problem and propose a new bounded reward formulation to make the problem feasible. Then, we further improve the learning process by proposing a novel visual-language model (VLM) based curriculum, which actively monitors the progress and suggests hyperparameter tuning. We demonstrate that the combined method can find a desirable wiping policy on surfaces with various curvatures, frictions, and waypoints, which cannot be learned with the baseline formulation. The demo of this project can be found at: https://sites.google.com/view/highqualitywiping.

arxiv情報

著者 Yihong Liu,Dongyeop Kang,Sehoon Ha
発行日 2025-02-18 07:15:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Learning a High-quality Robotic Wiping Policy Using Systematic Reward Analysis and Visual-Language Model Based Curriculum はコメントを受け付けていません

Learning-based Dynamic Robot-to-Human Handover

要約

このペーパーでは、動的なレシーバーにオブジェクトを配信するという課題に対処する、動的なロボットから人間へのハンドオーバーに対する新しい学習ベースのアプローチを紹介します。
ロボットが受信機の動きに適応する動的なハンドオーバーは、レシーバーが静止していると想定される静的なハンドオーバーと比較して、より効率的で快適な相互作用をもたらすと仮定します。
これを検証するために、レシーバーの動きを条件付けした連続ハンドオーバーモーションを生成するためのノンパラメトリック方法を開発し、1,000人の人間から人間へのハンドオーバーデモンストレーションのデータセットを使用してモデルを訓練しました。
ユーザーの安全性と適応性を確保するために、改善されたハンドオーバーの有効性と適用インピーダンス制御のために優先順位学習を統合しました。
このアプローチは、シミュレーションと現実世界の両方の設定で評価され、ユーザー調査では、動的なハンドオーバーがハンドオーバー時間を大幅に削減し、静的な方法と比較してユーザーの快適性が向上することを実証しました。
私たちのアプローチのビデオとデモンストレーションは、https://zerotohero7886.github.io/dyn-r2hハンドオーバーで入手できます。

要約(オリジナル)

This paper presents a novel learning-based approach to dynamic robot-to-human handover, addressing the challenges of delivering objects to a moving receiver. We hypothesize that dynamic handover, where the robot adjusts to the receiver’s movements, results in more efficient and comfortable interaction compared to static handover, where the receiver is assumed to be stationary. To validate this, we developed a nonparametric method for generating continuous handover motion, conditioned on the receiver’s movements, and trained the model using a dataset of 1,000 human-to-human handover demonstrations. We integrated preference learning for improved handover effectiveness and applied impedance control to ensure user safety and adaptiveness. The approach was evaluated in both simulation and real-world settings, with user studies demonstrating that dynamic handover significantly reduces handover time and improves user comfort compared to static methods. Videos and demonstrations of our approach are available at https://zerotohero7886.github.io/dyn-r2h-handover .

arxiv情報

著者 Hyeonseong Kim,Chanwoo Kim,Matthew Pan,Kyungjae Lee,Sungjoon Choi
発行日 2025-02-18 07:26:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning-based Dynamic Robot-to-Human Handover はコメントを受け付けていません

Differentiable Physics-based System Identification for Robotic Manipulation of Elastoplastic Materials

要約

生地などの食品から粘土などの建設材料まで、体積弾性変形材料のロボット操作は、主に高次元空間でのモデリングと知覚の難しさが原因で、初期段階にあります。
このような材料のダイナミクスをシミュレートすることは、計算上高価です。
材料と環境の不正確に推定された物理パラメーターに苦しむ傾向があり、高精度の操作を妨げます。
光学カメラによってキャプチャされた生の点雲からのこのようなパラメーターを推定することは、重い閉塞にさらに苦しんでいます。
この課題に対処するために、この作業では、ロボットアームが単純な操作運動と不完全な3Dポイントクラウドを使用して、ロボットアームがエラストプラスチック材料の物理パラメーターと環境の物理パラメーターを推測できるようにする新しい微分微分物理学ベースのシステム識別(DPSI)フレームワークを導入し、シミュレーションを整列させます。
現実の世界。
広範な実験では、単一の実際の相互作用のみで、推定されたパラメーター、ヤング率、ポアソン比、降伏応力、摩擦係数が、目に見えない長期の栽培操作運動によって誘発される視覚的および物理的に現実的な変形行動を正確にシミュレートできることが示されています。
さらに、DPSIフレームワークは、ディープニューラルネットワークなどのブラックボックスアプローチとは対照的に、パラメーターに対して物理的に直感的な解釈を本質的に提供します。
このプロジェクトは、https://ianyangchina.github.io/si4rp-data/を介して完全にオープンソースされています。

要約(オリジナル)

Robotic manipulation of volumetric elastoplastic deformable materials, from foods such as dough to construction materials like clay, is in its infancy, largely due to the difficulty of modelling and perception in a high-dimensional space. Simulating the dynamics of such materials is computationally expensive. It tends to suffer from inaccurately estimated physics parameters of the materials and the environment, impeding high-precision manipulation. Estimating such parameters from raw point clouds captured by optical cameras suffers further from heavy occlusions. To address this challenge, this work introduces a novel Differentiable Physics-based System Identification (DPSI) framework that enables a robot arm to infer the physics parameters of elastoplastic materials and the environment using simple manipulation motions and incomplete 3D point clouds, aligning the simulation with the real world. Extensive experiments show that with only a single real-world interaction, the estimated parameters, Young’s modulus, Poisson’s ratio, yield stress and friction coefficients, can accurately simulate visually and physically realistic deformation behaviours induced by unseen and long-horizon manipulation motions. Additionally, the DPSI framework inherently provides physically intuitive interpretations for the parameters in contrast to black-box approaches such as deep neural networks. The project is fully open-sourced via https://ianyangchina.github.io/SI4RP-data/.

arxiv情報

著者 Xintong Yang,Ze Ji,Yu-Kun Lai
発行日 2025-02-18 08:35:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.RO | Differentiable Physics-based System Identification for Robotic Manipulation of Elastoplastic Materials はコメントを受け付けていません