PRISM: Projection-based Reward Integration for Scene-Aware Real-to-Sim-to-Real Transfer with Few Demonstrations

要約

ロボットの初期位置とオブジェクトポーズのバリエーションに堅牢にポリシーを開発するためのデモンストレーションから学習することは、ロボット工学に非常に重要な関心の問題です。
限られたサンプルから一般化するのに苦労している模倣学習と比較して、強化学習(RL)は、堅牢な動作を得るために自律的に探求できます。
現実世界との直接的な相互作用を通じてRLエージェントをトレーニングすることはしばしば非現実的で安全ではありませんが、シミュレーション環境を構築するには、シーンの設計やタスク固有の報酬機能の作成など、広範な手動努力が必要です。
これらの課題に対処するために、画像からシーンオブジェクトを識別し、既存のライブラリから対応する3Dモデルを取得することにより、エキスパートデモンストレーションに基づいてシミュレーション環境を構築する統合されたリアルからシムからリアルまでのパイプラインを提案します。
RLポリシートレーニングの投影ベースの報酬モデルを導入します。これは、人間ガイド付きオブジェクト投影関係をプロンプトとして使用して、ビジョン言語モデル(VLM)によって監督され、ポリシーがエキスパートデモンストレーションを使用してさらに微調整されています。
一般に、私たちの作業は、シミュレーション環境とRLベースのポリシートレーニングの構築に焦点を当てており、最終的には現実世界のシナリオで信頼できるロボット制御ポリシーの展開を可能にします。

要約(オリジナル)

Learning from few demonstrations to develop policies robust to variations in robot initial positions and object poses is a problem of significant practical interest in robotics. Compared to imitation learning, which often struggles to generalize from limited samples, reinforcement learning (RL) can autonomously explore to obtain robust behaviors. Training RL agents through direct interaction with the real world is often impractical and unsafe, while building simulation environments requires extensive manual effort, such as designing scenes and crafting task-specific reward functions. To address these challenges, we propose an integrated real-to-sim-to-real pipeline that constructs simulation environments based on expert demonstrations by identifying scene objects from images and retrieving their corresponding 3D models from existing libraries. We introduce a projection-based reward model for RL policy training that is supervised by a vision-language model (VLM) using human-guided object projection relationships as prompts, with the policy further fine-tuned using expert demonstrations. In general, our work focuses on the construction of simulation environments and RL-based policy training, ultimately enabling the deployment of reliable robotic control policies in real-world scenarios.

arxiv情報

著者 Haowen Sun,Han Wang,Chengzhong Ma,Shaolong Zhang,Jiawei Ye,Xingyu Chen,Xuguang Lan
発行日 2025-04-29 08:01:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | PRISM: Projection-based Reward Integration for Scene-Aware Real-to-Sim-to-Real Transfer with Few Demonstrations はコメントを受け付けていません

Deliberate Planning of 3D Bin Packing on Packing Configuration Trees

要約

オンライン3Dビンパッキング問題(3D-BPP)には、産業自動化に広範なアプリケーションがあります。
既存の方法は、通常、空間離散化の限られた解像度で問題を解決します。
新しい階層表現であるパッキング構成ツリー(PCT)の学習を通じて、オンライン3D-BPPの実用的な適用性を高めることを提案します。
PCTは、深い強化学習(DRL)に基づいた梱包ポリシー学習をサポートできる、ビンパッキングの状態とアクションスペースの本格的な説明です。
梱包アクションスペースのサイズは、葉のノードの数に比例しているため、DRLモデルは訓練が容易になり、継続的なソリューションスペースがあってもパフォーマンスが良くなります。
さらに、大規模な梱包やBPP設定のさまざまなバリエーションなど、産業的重要性の梱包問題を意図的に解決する際の樹木ベースのプランナーとしてのPCTの可能性を発見します。
大規模なアンサンブルメカニズムがローカルソリューションをグローバルに統合する一方で、大規模な梱包をより小さなサブツリーに分解するために再帰的な梱包方法が提案されています。
Lookahead、バッファリング、オフラインパッキングなどの追加の決定変数を備えたさまざまなBPPのバリエーションについては、すぐにボックスの問題解決を可能にする統一された計画フレームワークを提案します。
広範な評価は、我々の方法が既存のオンラインBPPベースラインよりも優れていることを示しており、さまざまな実用的な制約を組み込むのに多用途です。
計画プロセスは、大規模な問題と多様な問題のばらつきにわたって優れています。
産業用倉庫用の現実世界のパッキングロボットを開発し、制約された配置と輸送の安定性を考慮して、慎重な設計を説明しています。
当社の梱包ロボットは、ボックスあたり10秒で保護されていないパレットで確実に効率的に動作します。
パレットごとに平均19ボックスを達成し、比較的大規模なボックスで57.4%のスペース使用率があります。

要約(オリジナル)

Online 3D Bin Packing Problem (3D-BPP) has widespread applications in industrial automation. Existing methods usually solve the problem with limited resolution of spatial discretization, and/or cannot deal with complex practical constraints well. We propose to enhance the practical applicability of online 3D-BPP via learning on a novel hierarchical representation, packing configuration tree (PCT). PCT is a full-fledged description of the state and action space of bin packing which can support packing policy learning based on deep reinforcement learning (DRL). The size of the packing action space is proportional to the number of leaf nodes, making the DRL model easy to train and well-performing even with continuous solution space. We further discover the potential of PCT as tree-based planners in deliberately solving packing problems of industrial significance, including large-scale packing and different variations of BPP setting. A recursive packing method is proposed to decompose large-scale packing into smaller sub-trees while a spatial ensemble mechanism integrates local solutions into global. For different BPP variations with additional decision variables, such as lookahead, buffering, and offline packing, we propose a unified planning framework enabling out-of-the-box problem solving. Extensive evaluations demonstrate that our method outperforms existing online BPP baselines and is versatile in incorporating various practical constraints. The planning process excels across large-scale problems and diverse problem variations. We develop a real-world packing robot for industrial warehousing, with careful designs accounting for constrained placement and transportation stability. Our packing robot operates reliably and efficiently on unprotected pallets at 10 seconds per box. It achieves averagely 19 boxes per pallet with 57.4% space utilization for relatively large-size boxes.

arxiv情報

著者 Hang Zhao,Juzhan Xu,Kexiong Yu,Ruizhen Hu,Chenyang Zhu,Kai Xu
発行日 2025-04-29 08:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Deliberate Planning of 3D Bin Packing on Packing Configuration Trees はコメントを受け付けていません

Learned Perceptive Forward Dynamics Model for Safe and Platform-aware Robotic Navigation

要約

複雑な環境で安全なナビゲーションを確保するには、ロボットの能力に対する環境相互作用の正確なリアルタイムの移動性評価と理解が必要です。
単純化されたダイナミクスを想定する従来の方法では、多くの場合、コスト関数を設計および調整して、目標に向けてパスやアクションを安全に導く必要があります。
このプロセスは退屈で、環境に依存し、一般化できません。
これらの問題を克服するために、周囲の幾何学と固有受容測定の歴史に条件付けられたロボットの将来の状態を予測する、よりスケーラブルでより安全で、ヒューリスティックな解決策を提案する、ロボットの将来の状態を予測する小説を学んだ知覚的フォワードダイナミクスモデル(FDM)を提案します。
FDMは、ハイリスクの操作や実世界の相互作用を含む複数年のシミュレートされたナビゲーションエクスペリエンスでトレーニングされており、剛体シミュレーションを超えて完全なシステムダイナミクスを組み込みます。
知覚FDMをゼロショットモデル予測パス積分(MPPI)計画フレームワークに統合し、アクション、将来の状態、および障害確率の間の学習マッピングを活用します。
これにより、単純化されたコスト関数を最適化でき、安全性を確保するために広範なコストチューニングの必要性を排除できます。
脚のあるロボットANYMALでは、提案された知覚FDMは、競合ベースラインよりも平均41%の位置推定を改善し、大まかなシミュレーション環境で27%高いナビゲーション成功率に変換されます。
さらに、効果的なSIMからリアルへの転送を示し、合成データと実際のデータに関するトレーニングの利点を紹介します。
コードとモデルは、https://github.com/leggedrobotics/fdmで公開されています。

要約(オリジナル)

Ensuring safe navigation in complex environments requires accurate real-time traversability assessment and understanding of environmental interactions relative to the robot`s capabilities. Traditional methods, which assume simplified dynamics, often require designing and tuning cost functions to safely guide paths or actions toward the goal. This process is tedious, environment-dependent, and not generalizable. To overcome these issues, we propose a novel learned perceptive Forward Dynamics Model (FDM) that predicts the robot`s future state conditioned on the surrounding geometry and history of proprioceptive measurements, proposing a more scalable, safer, and heuristic-free solution. The FDM is trained on multiple years of simulated navigation experience, including high-risk maneuvers, and real-world interactions to incorporate the full system dynamics beyond rigid body simulation. We integrate our perceptive FDM into a zero-shot Model Predictive Path Integral (MPPI) planning framework, leveraging the learned mapping between actions, future states, and failure probability. This allows for optimizing a simplified cost function, eliminating the need for extensive cost-tuning to ensure safety. On the legged robot ANYmal, the proposed perceptive FDM improves the position estimation by on average 41% over competitive baselines, which translates into a 27% higher navigation success rate in rough simulation environments. Moreover, we demonstrate effective sim-to-real transfer and showcase the benefit of training on synthetic and real data. Code and models are made publicly available under https://github.com/leggedrobotics/fdm.

arxiv情報

著者 Pascal Roth,Jonas Frey,Cesar Cadena,Marco Hutter
発行日 2025-04-29 09:26:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learned Perceptive Forward Dynamics Model for Safe and Platform-aware Robotic Navigation はコメントを受け付けていません

Hydra: Marker-Free RGB-D Hand-Eye Calibration

要約

この作業は、嘘の代数に堅牢なポイントツープレーン(PTP)対物レンズを備えた反復的な最も近いポイント(ICP)アルゴリズムの新しい実装を使用して、マーカーフリーのハンドアイキャリブレーションに対するRGB-Dイメージングベースのアプローチを提示します。
その適用性は、3つのよく知られているシリアルマニピュレーターと2つのRGB-Dカメラを使用した包括的な実験を通じて実証されています。
ランダムに選択されたロボット構成が3つしかないため、このアプローチは約90%の成功したキャリブレーションを実現し、マーカーベースとマーカーフリーの両方のベースラインと比較して、グローバルオプティムに2〜3倍高い収束速度を示しています。
また、他のマーカーフリーの方法で9つのロボット構成について、2桁高速な収束時間(0.8 +/- 0.4秒)を報告します。
私たちの方法は、マーカーフリーである一方で、古典的なアプローチ(タスクスペースで7 mm)にわたって精度(タスクスペースで5 mm)を大幅に改善しました。
ベンチマークデータセットとコードは、Apache 2.0ライセンスの下で開かれたソースであり、展開を容易にするためにロボット抽象化とのROS 2の統合が提供されます。

要約(オリジナル)

This work presents an RGB-D imaging-based approach to marker-free hand-eye calibration using a novel implementation of the iterative closest point (ICP) algorithm with a robust point-to-plane (PTP) objective formulated on a Lie algebra. Its applicability is demonstrated through comprehensive experiments using three well known serial manipulators and two RGB-D cameras. With only three randomly chosen robot configurations, our approach achieves approximately 90% successful calibrations, demonstrating 2-3x higher convergence rates to the global optimum compared to both marker-based and marker-free baselines. We also report 2 orders of magnitude faster convergence time (0.8 +/- 0.4 s) for 9 robot configurations over other marker-free methods. Our method exhibits significantly improved accuracy (5 mm in task space) over classical approaches (7 mm in task space) whilst being marker-free. The benchmarking dataset and code are open sourced under Apache 2.0 License, and a ROS 2 integration with robot abstraction is provided to facilitate deployment.

arxiv情報

著者 Martin Huber,Huanyu Tian,Christopher E. Mower,Lucas-Raphael Müller,Sébastien Ourselin,Christos Bergeles,Tom Vercauteren
発行日 2025-04-29 09:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Hydra: Marker-Free RGB-D Hand-Eye Calibration はコメントを受け付けていません

Multi-Sensor Fusion for Quadruped Robot State Estimation using Invariant Filtering and Smoothing

要約

この手紙では、四分位ロボットの2つのマルチセンサー状態推定フレームワークを紹介します。これは、不変の拡張カルマンフィルター(INEKF)と不変のスムーズ(IS)の上に構築されています。
e-nekfとe-isという名前の提案された方法は、特にZ軸に沿って位置ドリフトを緩和するための運動学、imu、lidar、およびGPSデータを融合します。これは、固有受容ベースのアプローチの一般的な問題です。
グループアフィン特性を満たす観測モデルを導き出し、Lidar odometryとGPSをInekfなどに統合しました。
Lidar Odometryは、並列スレッドでの反復的な近くのポイント(ICP)登録を使用して組み込まれ、固有受容ベースの状態推定の計算効率を維持します。
E-nekfとE-ISを外部受容センサーの有無にかかわらず評価し、Kaist Hound2ロボットを使用した屋内および屋外の実験でLidarベースの臭気法に対してベンチマークを付けます。
私たちの方法は、LIO-SAMおよびFast-LIO2と比較して、最大28%の屋内および40%の屋外の改善により、より低い相対位置エラー(RPE)を達成し、絶対軌道エラー(ATE)を大幅に減らします。
さらに、計算効率と精度の観点からE-inekfとe-isを比較します。

要約(オリジナル)

This letter introduces two multi-sensor state estimation frameworks for quadruped robots, built on the Invariant Extended Kalman Filter (InEKF) and Invariant Smoother (IS). The proposed methods, named E-InEKF and E-IS, fuse kinematics, IMU, LiDAR, and GPS data to mitigate position drift, particularly along the z-axis, a common issue in proprioceptive-based approaches. We derived observation models that satisfy group-affine properties to integrate LiDAR odometry and GPS into InEKF and IS. LiDAR odometry is incorporated using Iterative Closest Point (ICP) registration on a parallel thread, preserving the computational efficiency of proprioceptive-based state estimation. We evaluate E-InEKF and E-IS with and without exteroceptive sensors, benchmarking them against LiDAR-based odometry methods in indoor and outdoor experiments using the KAIST HOUND2 robot. Our methods achieve lower Relative Position Errors (RPE) and significantly reduce Absolute Trajectory Error (ATE), with improvements of up to 28% indoors and 40% outdoors compared to LIO-SAM and FAST-LIO2. Additionally, we compare E-InEKF and E-IS in terms of computational efficiency and accuracy.

arxiv情報

著者 Ylenia Nisticò,Hajun Kim,João Carlos Virgolino Soares,Geoff Fink,Hae-Won Park,Claudio Semini
発行日 2025-04-29 10:29:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Multi-Sensor Fusion for Quadruped Robot State Estimation using Invariant Filtering and Smoothing はコメントを受け付けていません

Identifying Uncertainty in Self-Adaptive Robotics with Large Language Models

要約

将来の自己適応ロボットは、不確実性を効果的に管理しながら、非常に動的な環境で動作することが期待されています。
ただし、このようなロボットシステムにおける不確実性のソースと影響を特定し、適切な緩和戦略を定義することは、自己適応ロボットの固有の複雑さと、不確実性に影響を与えるさまざまな要因に関する包括的な知識の欠如のために困難です。
したがって、実務家はしばしば、不確実性に対処するために、同様のシステムからの直観と過去の経験に依存しています。
この記事では、ソフトウェアエンジニアリングライフサイクル全体で自己適応ロボット工学の不確実性を特定するための体系的で自動化されたアプローチを可能にするために、大規模な言語モデル(LLMS)の可能性を評価します。
この評価のために、4つの産業規模のロボット工学ケーススタディでさまざまな機能を備えた10の高度なLLMを分析し、不確実性に関連するLLM生成された応答に関する実務家の視点を収集しました。
結果は、実務家がLLMの応答の63〜88%に同意し、この目的のためにLLMの実用性に強い関心を表明したことを示しました。

要約(オリジナル)

Future self-adaptive robots are expected to operate in highly dynamic environments while effectively managing uncertainties. However, identifying the sources and impacts of uncertainties in such robotic systems and defining appropriate mitigation strategies is challenging due to the inherent complexity of self-adaptive robots and the lack of comprehensive knowledge about the various factors influencing uncertainty. Hence, practitioners often rely on intuition and past experiences from similar systems to address uncertainties. In this article, we evaluate the potential of large language models (LLMs) in enabling a systematic and automated approach to identify uncertainties in self-adaptive robotics throughout the software engineering lifecycle. For this evaluation, we analyzed 10 advanced LLMs with varying capabilities across four industrial-sized robotics case studies, gathering the practitioners’ perspectives on the LLM-generated responses related to uncertainties. Results showed that practitioners agreed with 63-88% of the LLM responses and expressed strong interest in the practicality of LLMs for this purpose.

arxiv情報

著者 Hassan Sartaj,Jalil Boudjadar,Mirgita Frasheri,Shaukat Ali,Peter Gorm Larsen
発行日 2025-04-29 12:07:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SE | Identifying Uncertainty in Self-Adaptive Robotics with Large Language Models はコメントを受け付けていません

High-Performance Reinforcement Learning on Spot: Optimizing Simulation Parameters with Distributional Measures

要約

この作業は、ボストンダイナミクススポットでの低レベルのモーターアクセスのためのSpot RL Researcher Development Kitを使用した高性能強化学習ポリシーの展開の背後にある技術的詳細の概要を示しています。
これは、ボストンダイナミクスを通じて利用可能なNVIDIA ISAACLABおよび展開コードを通じて公開されているトレーニングコードを使用して、スポットハードウェアに展開されたエンドツーエンドエンドの強化学習ポリシーの最初の公開デモを表しています。
ワッサースタイン距離と最大平均の不一致を利用して、ハードウェアおよびシミュレーションで収集されたデータの分布の類似性を定量化して、SIM2realギャップを測定します。
これらの測定値は、共分散行列適応進化戦略のスコアリング関数として使用して、スポットから測定が不明または測定が困難なシミュレートされたパラメーターを最適化します。
モデリングとトレーニングの手順は、飛行段階を含む複数の歩行が可能な高品質の強化学習ポリシーを生成します。
5.2msを超える移動、トリプルスポット以上のデフォルトコントローラーの最大速度、滑りやすい表面への堅牢性、外乱の拒絶、および以前は目に見えなかった全体的な俊敏性が可能なポリシーを展開します。
メソッドを詳しく説明し、コードをリリースして、低レベルのAPIで将来の作業をサポートします。

要約(オリジナル)

This work presents an overview of the technical details behind a high performance reinforcement learning policy deployment with the Spot RL Researcher Development Kit for low level motor access on Boston Dynamics Spot. This represents the first public demonstration of an end to end end reinforcement learning policy deployed on Spot hardware with training code publicly available through Nvidia IsaacLab and deployment code available through Boston Dynamics. We utilize Wasserstein Distance and Maximum Mean Discrepancy to quantify the distributional dissimilarity of data collected on hardware and in simulation to measure our sim2real gap. We use these measures as a scoring function for the Covariance Matrix Adaptation Evolution Strategy to optimize simulated parameters that are unknown or difficult to measure from Spot. Our procedure for modeling and training produces high quality reinforcement learning policies capable of multiple gaits, including a flight phase. We deploy policies capable of over 5.2ms locomotion, more than triple Spots default controller maximum speed, robustness to slippery surfaces, disturbance rejection, and overall agility previously unseen on Spot. We detail our method and release our code to support future work on Spot with the low level API.

arxiv情報

著者 AJ Miller,Fangzhou Yu,Michael Brauckmann,Farbod Farshidian
発行日 2025-04-29 13:13:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | High-Performance Reinforcement Learning on Spot: Optimizing Simulation Parameters with Distributional Measures はコメントを受け付けていません

Confidence-based Intent Prediction for Teleoperation in Bimanual Robotic Suturing

要約

ロボット補助手順は精度の向上を提供しますが、完全自律システムはタスクの知識、非構造化環境のモデル化の難しさ、および一般化能力が制限されていますが、完全に手動のテレホ操作システムは、遅延、安定性、感覚情報の削減などの課題にも直面しています。
これらに対処するために、高レベルと低レベルの両方でモーションプランを予測することにより、人間のオペレーターを支援するインタラクティブな制御戦略を開発しました。
高レベルでは、トランスベースのリアルタイムジェスチャー分類モデルを通じてSARGEME認識システムが採用され、オペレーターのアクションに動的に適応しますが、低レベルでは、信頼ベースの意図同化コントローラーがユーザーの意図と共有コントロールパラダイムに基づいてロボットアクションを調整します。
このシステムは、ロボットとタスクのダイナミクスの運動学をキャプチャするセンサーでサポートされるロボット縫合タスクを中心に構築されています。
さまざまなスキルレベルを持つユーザーの実験により、提案されたアプローチの有効性が示され、従来のテレオ操作と比較してタスクの完了時間とユーザーの満足度の統計的に有意な改善が示されました。

要約(オリジナル)

Robotic-assisted procedures offer enhanced precision, but while fully autonomous systems are limited in task knowledge, difficulties in modeling unstructured environments, and generalisation abilities, fully manual teleoperated systems also face challenges such as delay, stability, and reduced sensory information. To address these, we developed an interactive control strategy that assists the human operator by predicting their motion plan at both high and low levels. At the high level, a surgeme recognition system is employed through a Transformer-based real-time gesture classification model to dynamically adapt to the operator’s actions, while at the low level, a Confidence-based Intention Assimilation Controller adjusts robot actions based on user intent and shared control paradigms. The system is built around a robotic suturing task, supported by sensors that capture the kinematics of the robot and task dynamics. Experiments across users with varying skill levels demonstrated the effectiveness of the proposed approach, showing statistically significant improvements in task completion time and user satisfaction compared to traditional teleoperation.

arxiv情報

著者 Zhaoyang Jacopo Hu,Haozheng Xu,Sion Kim,Yanan Li,Ferdinando Rodriguez y Baena,Etienne Burdet
発行日 2025-04-29 13:41:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Confidence-based Intent Prediction for Teleoperation in Bimanual Robotic Suturing はコメントを受け付けていません

Imperative MPC: An End-to-End Self-Supervised Learning with Differentiable MPC for UAV Attitude Control

要約

非線形ダイナミクスのモデリングと制御は、特に予測不可能な外部の影響と複雑なダイナミクスを備えたシナリオでは、ロボット工学で重要です。
従来のカスケードされたモジュラー制御パイプラインは、保守的な仮定と退屈なパラメーターのチューニングにより、しばしば最適ではないパフォーマンスをもたらすことがよくあります。
純粋なデータ駆動型アプローチは、堅牢なパフォーマンスを約束しますが、サンプル効率の低さ、SIMからリアルのギャップ、および広範なデータセットへの依存に苦しんでいます。
学習ベースと従来のモデルベースの制御をエンドツーエンドの方法で組み合わせたハイブリッド方法は、有望な選択肢を提供します。
この作業は、無人航空機(UAV)姿勢制御のための学習ベースの慣性臭気測定(IO)モジュールと微分可能なモデル予測制御(D-MPC)を組み合わせた自己科学の学習フレームワークを提示します。
IOは、生のIMU測定値を形成し、UAVの態度を予測します。これは、内側のMPCが制御アクションを最適化し、現実世界と予測されるパフォーマンスの間の矛盾を最小限に抑えるBIレベル最適化(BLO)セットアップの制御アクションのためにMPCによって最適化されます。
したがって、フレームワークはエンドツーエンドであり、自己監視された方法でトレーニングすることができます。
このアプローチは、学習ベースの知覚の強さと解釈可能なモデルベースの制御を組み合わせています。
結果は、強風の下でも有効性を示しています。
MPCパラメーター学習とIMU予測パフォーマンスの両方を同時に強化できます。

要約(オリジナル)

Modeling and control of nonlinear dynamics are critical in robotics, especially in scenarios with unpredictable external influences and complex dynamics. Traditional cascaded modular control pipelines often yield suboptimal performance due to conservative assumptions and tedious parameter tuning. Pure data-driven approaches promise robust performance but suffer from low sample efficiency, sim-to-real gaps, and reliance on extensive datasets. Hybrid methods combining learning-based and traditional model-based control in an end-to-end manner offer a promising alternative. This work presents a self-supervised learning framework combining learning-based inertial odometry (IO) module and differentiable model predictive control (d-MPC) for Unmanned Aerial Vehicle (UAV) attitude control. The IO denoises raw IMU measurements and predicts UAV attitudes, which are then optimized by MPC for control actions in a bi-level optimization (BLO) setup, where the inner MPC optimizes control actions and the upper level minimizes discrepancy between real-world and predicted performance. The framework is thus end-to-end and can be trained in a self-supervised manner. This approach combines the strength of learning-based perception with the interpretable model-based control. Results show the effectiveness even under strong wind. It can simultaneously enhance both the MPC parameter learning and IMU prediction performance.

arxiv情報

著者 Haonan He,Yuheng Qiu,Junyi Geng
発行日 2025-04-29 14:29:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Imperative MPC: An End-to-End Self-Supervised Learning with Differentiable MPC for UAV Attitude Control はコメントを受け付けていません

Differentiable GPU-Parallelized Task and Motion Planning

要約

長距離ロボットの操作を計画するには、どのオブジェクトと対話するかについて個別の決定を下す必要があり、それらと対話する方法について継続的な決定が必要です。
ロボットプランナーは、実行可能で安全な把握、配置、およびモーションを選択する必要があります。
このクラスの問題は、タスクとモーションプランニング(TAMP)に該当し、特にソリューションスペースが非常に制約されている場合、アルゴリズムのランタイムとソリューション品質の点で重要な計算上の課題をもたらします。
これらの課題に対処するために、GPUの並列性を活用して数千の候補者の連続ソリューションを同時に効率的に調査する新しいBilevel Tampアルゴリズムを提案します。
私たちのアプローチでは、GPUの並列性を使用して、プランスケルトンのソリューションシードの初期バッチをサンプリングし、このバッチに微分可能な最適化を適用して、プランの制約を満たし、ソフト目標に関するソリューションコストを最小限に抑えます。
私たちのアルゴリズムは、わずか数秒で非凸の制約を伴う高度に制約された問題を効果的に解決し、実質的にシリアルTAMPアプローチを上回り、複数の現実世界のロボットでアプローチを検証できることを実証します。
プロジェクトWebサイトとコード:https://cutamp.github.io

要約(オリジナル)

Planning long-horizon robot manipulation requires making discrete decisions about which objects to interact with and continuous decisions about how to interact with them. A robot planner must select grasps, placements, and motions that are feasible and safe. This class of problems falls under Task and Motion Planning (TAMP) and poses significant computational challenges in terms of algorithm runtime and solution quality, particularly when the solution space is highly constrained. To address these challenges, we propose a new bilevel TAMP algorithm that leverages GPU parallelism to efficiently explore thousands of candidate continuous solutions simultaneously. Our approach uses GPU parallelism to sample an initial batch of solution seeds for a plan skeleton and to apply differentiable optimization on this batch to satisfy plan constraints and minimize solution cost with respect to soft objectives. We demonstrate that our algorithm can effectively solve highly constrained problems with non-convex constraints in just seconds, substantially outperforming serial TAMP approaches, and validate our approach on multiple real-world robots. Project website and code: https://cutamp.github.io

arxiv情報

著者 William Shen,Caelan Garrett,Nishanth Kumar,Ankit Goyal,Tucker Hermans,Leslie Pack Kaelbling,Tomás Lozano-Pérez,Fabio Ramos
発行日 2025-04-29 15:22:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Differentiable GPU-Parallelized Task and Motion Planning はコメントを受け付けていません