Centroidal State Estimation based on the Koopman Embedding for Dynamic Legged Locomotion

要約

この論文では、動的脚運動のための予測モデルベースの制御戦略において重要な役割を果たす重心状態推定への新しいアプローチを紹介します。
私たちのアプローチでは、クープマン演算子理論を使用して、モデル構築に動的モード分解とディープラーニングを採用することで、ロボットの複雑な非線形ダイナミクスを線形システムに変換します。
両方のモデルの線形化精度と、高速および低速の両方の動的システム応答を捕捉する機能を評価します。
次に、推定目的に最適なモデルを選択し、それを移動地平線推定器内に統合します。
この推定器は、堅牢なリアルタイムの重心状態推定を容易にするために、凸二次プログラムとして定式化されます。
さまざまな動的歩行を実行する四足ロボットでの広範なシミュレーション実験を通じて、当社のデータ駆動型フレームワークは、非線形ダイナミクスに基づく従来の拡張カルマン フィルター技術を上回る性能を発揮します。
私たちの推定器は、非常に動的な動きにおける力/トルク測定ノイズによってもたらされる課題に対処し、重心状態を正確に回復し、複雑な機関車の動作に対するクープマンベースの線形表現の適応性と有効性を実証します。
重要なのは、2 つの移動パターン (トロットとジャンプ) でトレーニングされた動的モード分解に基づくモデルは、再トレーニングすることなく、異なる動き (バウンド) の重心状態を正常に推定できることです。

要約(オリジナル)

In this paper, we introduce a novel approach to centroidal state estimation, which plays a crucial role in predictive model-based control strategies for dynamic legged locomotion. Our approach uses the Koopman operator theory to transform the robot’s complex nonlinear dynamics into a linear system, by employing dynamic mode decomposition and deep learning for model construction. We evaluate both models on their linearization accuracy and capability to capture both fast and slow dynamic system responses. We then select the most suitable model for estimation purposes, and integrate it within a moving horizon estimator. This estimator is formulated as a convex quadratic program to facilitate robust, real-time centroidal state estimation. Through extensive simulation experiments on a quadruped robot executing various dynamic gaits, our data-driven framework outperforms conventional Extended Kalman Filtering technique based on nonlinear dynamics. Our estimator addresses challenges posed by force/torque measurement noise in highly dynamic motions and accurately recovers the centroidal states, demonstrating the adaptability and effectiveness of the Koopman-based linear representation for complex locomotive behaviors. Importantly, our model based on dynamic mode decomposition, trained with two locomotion patterns (trot and jump), successfully estimates the centroidal states for a different motion (bound) without retraining.

arxiv情報

著者 Shahram Khorshidi,Murad Dawood,Maren Bennewitz
発行日 2024-10-07 08:05:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Safe Multi-Agent Reinforcement Learning for Behavior-Based Cooperative Navigation

要約

この論文では、安全なマルチエージェント強化学習~(MARL)を使用した移動ロボットの行動ベースの協調ナビゲーションの問題に取り組みます。
私たちの研究は、編隊の重心に単一のターゲットを使用し、ロボットの個別の参照ターゲットを使用せずに協調ナビゲーションに焦点を当てた初めての作業です。
これにより、複数のパス プランナーがロボットのチームを制御することに伴う複雑さが解消されます。
安全性を確保するために、MARL フレームワークはモデル予測制御 (MPC) を使用して、トレーニングおよび実行中に衝突につながる可能性のあるアクションを防止します。
私たちは、シミュレーションと実際のロボットでこの方法の有効性を実証し、個別の参照ターゲットを使用せずに安全な行動ベースの協調ナビゲーションを実現し、衝突ゼロで、ベースラインと比較してより速くターゲットに到達します。
最後に、学習プロセスに対する MPC 安全フィルターの影響を研究し、トレーニング中により高速な収束が達成されることを明らかにし、トレーニングの初期段階であっても、私たちのアプローチが実際のロボットに安全に導入できることを示します。

要約(オリジナル)

In this paper, we address the problem of behavior-based cooperative navigation of mobile robots using safe multi-agent reinforcement learning~(MARL). Our work is the first to focus on cooperative navigation without individual reference targets for the robots, using a single target for the formation’s centroid. This eliminates the complexities involved in having several path planners to control a team of robots. To ensure safety, our MARL framework uses model predictive control (MPC) to prevent actions that could lead to collisions during training and execution. We demonstrate the effectiveness of our method in simulation and on real robots, achieving safe behavior-based cooperative navigation without using individual reference targets, with zero collisions, and faster target reaching compared to baselines. Finally, we study the impact of MPC safety filters on the learning process, revealing that we achieve faster convergence during training and we show that our approach can be safely deployed on real robots, even during early stages of the training.

arxiv情報

著者 Murad Dawood,Sicong Pan,Nils Dengler,Siqi Zhou,Angela P. Schoellig,Maren Bennewitz
発行日 2024-10-07 08:10:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

A Planar-Symmetric SO(3) Representation for Learning Grasp Detection

要約

平行グリッパなどの面対称ハンドは研究分野や産業分野で広く採用されています。
ただし、それらの対称性により、SO(3) 表現に曖昧さと不連続性が生じ、ニューラル ネットワーク ベースの把握検出器のトレーニングと推論の両方が妨げられます。
我々は、2D ビンガム分布を利用して、単一のパラメーター セットで一対の面対称ポーズをパラメーター化できる新しい SO(3) 表現を提案します。
また、より一貫した回転出力を提供する、私たちの表現に基づいた把握検出器についても詳しく説明します。
シミュレーションと現実世界の両方で複数のグリッパーとオブジェクトを使用した集中的な評価により、私たちのアプローチの貢献が定量的に示されます。

要約(オリジナル)

Planar-symmetric hands, such as parallel grippers, are widely adopted in both research and industrial fields. Their symmetry, however, introduces ambiguity and discontinuity in the SO(3) representation, which hinders both the training and inference of neural-network-based grasp detectors. We propose a novel SO(3) representation that can parametrize a pair of planar-symmetric poses with a single parameter set by leveraging the 2D Bingham distribution. We also detail a grasp detector based on our representation, which provides a more consistent rotation output. An intensive evaluation with multiple grippers and objects in both the simulation and the real world quantitatively shows our approach’s contribution.

arxiv情報

著者 Tianyi Ko,Takuya Ikeda,Hiroya Sato,Koichi Nishiwaki
発行日 2024-10-07 08:25:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

TD-NeRF: Novel Truncated Depth Prior for Joint Camera Pose and Neural Radiance Field Optimization

要約

正確なカメラのポーズへの依存は、3D 再構築および SLAM タスク用の Neural Radiance Fields (NeRF) モデルの広範な導入にとって大きな障壁となっています。
既存の方法では、カメラのポーズと NeRF を共同で最適化するために単眼深度事前分布を導入していますが、深度事前分布を十分に活用できず、固有のノイズの影響が無視されています。
この論文では、放射輝度フィールドとカメラ ポーズの学習可能なパラメータを共同最適化することで、未知のカメラ ポーズから NeRF をトレーニングできる新しいアプローチである Truncated Depth NeRF (TD-NeRF) を提案します。
私たちのアプローチは、3 つの重要な進歩を通じて単眼深度事前分布を明示的に利用しています。1) 切り詰められた正規分布に基づく新しい深度ベースの光線サンプリング戦略を提案します。これにより、姿勢推定の収束速度と精度が向上します。
2) 極小値を回避し、深度ジオメトリを洗練するために、深度の精度を段階的に向上させる粗いトレーニングから細かいトレーニング戦略を導入します。
3) トレーニング中の深度ノイズに対するロバスト性を強化する、よりロバストなフレーム間ポイント制約を提案します。
3 つのデータセットに関する実験結果は、TD-NeRF がカメラ ポーズと NeRF の共同最適化において従来の研究を上回る優れたパフォーマンスを達成し、より正確な深度ジオメトリを生成することを示しています。
私たちのメソッドの実装は https://github.com/nubot-nudt/TD-NeRF でリリースされました。

要約(オリジナル)

The reliance on accurate camera poses is a significant barrier to the widespread deployment of Neural Radiance Fields (NeRF) models for 3D reconstruction and SLAM tasks. The existing method introduces monocular depth priors to jointly optimize the camera poses and NeRF, which fails to fully exploit the depth priors and neglects the impact of their inherent noise. In this paper, we propose Truncated Depth NeRF (TD-NeRF), a novel approach that enables training NeRF from unknown camera poses – by jointly optimizing learnable parameters of the radiance field and camera poses. Our approach explicitly utilizes monocular depth priors through three key advancements: 1) we propose a novel depth-based ray sampling strategy based on the truncated normal distribution, which improves the convergence speed and accuracy of pose estimation; 2) to circumvent local minima and refine depth geometry, we introduce a coarse-to-fine training strategy that progressively improves the depth precision; 3) we propose a more robust inter-frame point constraint that enhances robustness against depth noise during training. The experimental results on three datasets demonstrate that TD-NeRF achieves superior performance in the joint optimization of camera pose and NeRF, surpassing prior works, and generates more accurate depth geometry. The implementation of our method has been released at https://github.com/nubot-nudt/TD-NeRF.

arxiv情報

著者 Zhen Tan,Zongtan Zhou,Yangbing Ge,Zi Wang,Xieyuanli Chen,Dewen Hu
発行日 2024-10-07 08:28:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | コメントする

Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training

要約

複数のタスクを完了できるジェネラリストの身体化エージェントを学習するには、主にアクションラベル付きロボットデータセットの不足に起因する課題が生じます。
対照的に、複雑なタスクや物理世界とのやり取りを捉えた人間のビデオが膨大に存在します。
事前トレーニングと知識の伝達に、アクションのない人間のビデオを利用して、限られたロボットのデモンストレーションを通じてロボットポリシーの学習を促進するという有望な見通しが生まれています。
しかし、人間とロボットの間には領域のギャップがあるため、依然として課題が残っています。
さらに、人間のビデオにはノイズが多く、マルチモーダルなデータ構造があるため、動的な世界を表す有用な情報を人間のビデオから抽出することは困難です。
この論文では、これらの課題に取り組むための新しいフレームワークを紹介します。このフレームワークは、統合された離散拡散を利用して、人間のビデオでの生成的な事前トレーニングと、アクションのラベルが付けられた少数のロボットのビデオでのポリシーの微調整を組み合わせます。
まず、人間とロボットの両方のビデオを統合ビデオ トークンに圧縮します。
事前トレーニング段階では、マスクと置換の拡散戦略を備えた離散拡散モデルを採用して、潜在空間内の将来のビデオ トークンを予測します。
微調整段階では、想像された未来のビデオを利用して、限られたロボット データのセットで低レベルのアクション学習をガイドします。
実験では、私たちの方法が計画用に忠実度の高い将来のビデオを生成し、以前の最先端のアプローチと比較して、優れたパフォーマンスで微調整されたポリシーを強化することを示しています。
私たちのプロジェクトの Web サイトは https://video-diff.github.io/ から入手できます。

要約(オリジナル)

Learning a generalist embodied agent capable of completing multiple tasks poses challenges, primarily stemming from the scarcity of action-labeled robotic datasets. In contrast, a vast amount of human videos exist, capturing intricate tasks and interactions with the physical world. Promising prospects arise for utilizing actionless human videos for pre-training and transferring the knowledge to facilitate robot policy learning through limited robot demonstrations. However, it remains a challenge due to the domain gap between humans and robots. Moreover, it is difficult to extract useful information representing the dynamic world from human videos, because of its noisy and multimodal data structure. In this paper, we introduce a novel framework to tackle these challenges, which leverages a unified discrete diffusion to combine generative pre-training on human videos and policy fine-tuning on a small number of action-labeled robot videos. We start by compressing both human and robot videos into unified video tokens. In the pre-training stage, we employ a discrete diffusion model with a mask-and-replace diffusion strategy to predict future video tokens in the latent space. In the fine-tuning stage, we harness the imagined future videos to guide low-level action learning with a limited set of robot data. Experiments demonstrate that our method generates high-fidelity future videos for planning and enhances the fine-tuned policies compared to previous state-of-the-art approaches with superior performance. Our project website is available at https://video-diff.github.io/.

arxiv情報

著者 Haoran He,Chenjia Bai,Ling Pan,Weinan Zhang,Bin Zhao,Xuelong Li
発行日 2024-10-07 08:45:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

Unsupervised Skill Discovery for Robotic Manipulation through Automatic Task Generation

要約

ロボット操作にとって、物体と対話するスキルを学習することは非常に重要です。
これらのスキルは、さまざまな操作タスクを解決するための効率的な事前学習として実際に役立ちます。
私たちは、自律的に生成された多数の多様なタスクを解決することで、構成可能な動作を発見する、新しいスキル学習アプローチを提案します。
私たちのメソッドは、ロボットがその環境内のオブジェクトと一貫して確実に対話できるようにするスキルを学習します。
発見された動作は、目に見えない操作タスクを解決するために階層強化学習で構成できるプリミティブに埋め込まれます。
特に、非対称セルフプレイを活用して動作を発見し、乗算的構成ポリシーを埋め込んでいます。
私たちの方法をスキル学習のベースラインと比較したところ、スキルがよりインタラクティブであることがわかりました。
さらに、学習したスキルを使用して、シミュレーションでも実際のロボット プラットフォームでも、目に見えない一連の操作タスクを解決できます。

要約(オリジナル)

Learning skills that interact with objects is of major importance for robotic manipulation. These skills can indeed serve as an efficient prior for solving various manipulation tasks. We propose a novel Skill Learning approach that discovers composable behaviors by solving a large and diverse number of autonomously generated tasks. Our method learns skills allowing the robot to consistently and robustly interact with objects in its environment. The discovered behaviors are embedded in primitives which can be composed with Hierarchical Reinforcement Learning to solve unseen manipulation tasks. In particular, we leverage Asymmetric Self-Play to discover behaviors and Multiplicative Compositional Policies to embed them. We compare our method to Skill Learning baselines and find that our skills are more interactive. Furthermore, the learned skills can be used to solve a set of unseen manipulation tasks, in simulation as well as on a real robotic platform.

arxiv情報

著者 Paul Jansonnie,Bingbing Wu,Julien Perez,Jan Peters
発行日 2024-10-07 09:19:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | コメントする

Auto-Multilift: Distributed Learning and Control for Cooperative Load Transportation With Quadrotors

要約

マルチリフト システムのモーション コントロールと計画アルゴリズムの設計は、力学、衝突回避、アクチュエータの制限、拡張性の複雑さのため、依然として困難です。
最適化と分散技術を使用する既存の方法は、これらの制約とスケーラビリティの問題に効果的に対処します。
ただし、多くの場合、大幅な手動調整が必要となり、最適なパフォーマンスが得られません。
この論文では、マルチリフト システムのモデル予測コントローラー (MPC) のチューニングを自動化する新しいフレームワークである Auto-Multilift を提案します。
MPC コスト関数をディープ ニューラル ネットワーク (DNN) でモデル化し、さまざまなシナリオへの迅速なオンライン適応を可能にします。
これらの DNN を閉ループ方式で効率的にトレーニングするための分散ポリシー勾配アルゴリズムを開発します。
私たちのアルゴリズムの中心となるのは分散感度伝播であり、これはマルチリフト システム内の独自の動的結合を最大限に活用することに基づいて構築されています。
これは、クアッドローター全体にわたる勾配計算を並列化し、主要な MPC パラメーターに対する実際のシステム状態の感度に焦点を当てます。
広範なシミュレーションにより、多数のクワッドローターに対する良好なスケーラビリティが実証されました。
私たちの方法は、軌道追跡エラーから適応 MPC を効果的に学習することにより、最先端の開ループ MPC 調整アプローチを上回ります。
また、複数の狭いスロットを横断するときにシステムを再構成するための適応リファレンスの学習にも優れています。

要約(オリジナル)

Designing motion control and planning algorithms for multilift systems remains challenging due to the complexities of dynamics, collision avoidance, actuator limits, and scalability. Existing methods that use optimization and distributed techniques effectively address these constraints and scalability issues. However, they often require substantial manual tuning, leading to suboptimal performance. This paper proposes Auto-Multilift, a novel framework that automates the tuning of model predictive controllers (MPCs) for multilift systems. We model the MPC cost functions with deep neural networks (DNNs), enabling fast online adaptation to various scenarios. We develop a distributed policy gradient algorithm to train these DNNs efficiently in a closed-loop manner. Central to our algorithm is distributed sensitivity propagation, which is built on fully exploiting the unique dynamic couplings within the multilift system. It parallelizes gradient computation across quadrotors and focuses on actual system state sensitivities relative to key MPC parameters. Extensive simulations demonstrate favorable scalability to a large number of quadrotors. Our method outperforms a state-of-the-art open-loop MPC tuning approach by effectively learning adaptive MPCs from trajectory tracking errors. It also excels in learning an adaptive reference for reconfiguring the system when traversing multiple narrow slots.

arxiv情報

著者 Bingheng Wang,Rui Huang,Lin Zhao
発行日 2024-10-07 09:22:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Predictive Spliner: Data-Driven Overtaking in Autonomous Racing Using Opponent Trajectory Prediction

要約

対戦相手との直接対決のレースは、自動レースの分野において挑戦的かつ新たなトピックです。
私たちは、ガウス過程 (GP) 回帰を通じて対戦相手の行動を学習するデータ駆動型の追い越しプランナーである Predictive Spliner を提案します。これは、レーシング トラックの将来のセクションで実行可能な追い越し操作を計算するために活用されます。
光検出測距 (LiDAR) 情報を使用して対戦相手を認識する 1:10 スケールの自律レーシング プラットフォームで実験的に検証された予測スプライナーは、自身の最大 83.1% で対戦相手を追い越し、最先端 (SotA) アルゴリズムを上回ります。
以前の最もパフォーマンスの高い方法よりも平均 8.4% 高速です。
さらに、平均成功率は 84.5% であり、以前の最もパフォーマンスの高い方法よりも 47.6% 高くなります。
この手法は、商用オフザシェルフ (CotS) Intel i7-1165G7 で評価した場合、中央処理装置 (CPU) 負荷 22.79%、計算時間 8.4 ミリ秒という計算効率を維持しており、リアルタイム ロボットに適しています。
アプリケーション。
これらの結果は、自動レース車両のパフォーマンスと安全性を向上させる Predictive Spliner の可能性を浮き彫りにしています。
Predictive Spliner のコードは、https://github.com/ForzaETH/predictive-spliner で入手できます。

要約(オリジナル)

Head-to-head racing against opponents is a challenging and emerging topic in the domain of autonomous racing. We propose Predictive Spliner, a data-driven overtaking planner that learns the behavior of opponents through Gaussian Process (GP) regression, which is then leveraged to compute viable overtaking maneuvers in future sections of the racing track. Experimentally validated on a 1:10 scale autonomous racing platform using Light Detection and Ranging (LiDAR) information to perceive the opponent, Predictive Spliner outperforms State-of-the-Art (SotA) algorithms by overtaking opponents at up to 83.1% of its own speed, being on average 8.4% faster than the previous best-performing method. Additionally, it achieves an average success rate of 84.5%, which is 47.6% higher than the previous best-performing method. The method maintains computational efficiency with a Central Processing Unit (CPU) load of 22.79% and a computation time of 8.4 ms, evaluated on a Commercial off-the-Shelf (CotS) Intel i7-1165G7, making it suitable for real-time robotic applications. These results highlight the potential of Predictive Spliner to enhance the performance and safety of autonomous racing vehicles. The code for Predictive Spliner is available at: https://github.com/ForzaETH/predictive-spliner.

arxiv情報

著者 Nicolas Baumann,Edoardo Ghignone,Cheng Hu,Benedict Hildisch,Tino Hämmerle,Alessandro Bettoni,Andrea Carron,Lei Xie,Michele Magno
発行日 2024-10-07 09:33:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

TeX-NeRF: Neural Radiance Fields from Pseudo-TeX Vision

要約

神経放射フィールド (NeRF) は、その卓越した視覚効果により大きな注目を集めています。
ただし、既存の NeRF 手法のほとんどは、可視光カメラでキャプチャされた RGB 画像から 3D シーンを再構成します。
暗闇、低照度、悪天候などの実際のシナリオでは、可視光カメラは効果がありません。
そこで、我々は、対象物質の放射率をアプリオリに導入し、擬似TeXビジョンを用いて赤外線画像を前処理し、温度(T)、放射率(e)、
シーンのテクスチャ (X) を、それぞれ HSV 色空間の彩度 (S)、色相 (H)、および値 (V) チャネルに変換します。
処理された画像を使用した新しいビューの合成により、優れた結果が得られました。
さらに、赤外線画像とそれに対応する疑似 TeX ビジョン画像で構成される最初のデータセットである 3D-TeX データセットを紹介します。
実験では、私たちの方法が高品質の RGB 画像で達成されるシーン再構成の品質と一致するだけでなく、シーン内のオブジェクトの正確な温度推定も提供できることを示しています。

要約(オリジナル)

Neural radiance fields (NeRF) has gained significant attention for its exceptional visual effects. However, most existing NeRF methods reconstruct 3D scenes from RGB images captured by visible light cameras. In practical scenarios like darkness, low light, or bad weather, visible light cameras become ineffective. Therefore, we propose TeX-NeRF, a 3D reconstruction method using only infrared images, which introduces the object material emissivity as a priori, preprocesses the infrared images using Pseudo-TeX vision, and maps the temperatures (T), emissivities (e), and textures (X) of the scene into the saturation (S), hue (H), and value (V) channels of the HSV color space, respectively. Novel view synthesis using the processed images has yielded excellent results. Additionally, we introduce 3D-TeX Datasets, the first dataset comprising infrared images and their corresponding Pseudo-TeX vision images. Experiments demonstrate that our method not only matches the quality of scene reconstruction achieved with high-quality RGB images but also provides accurate temperature estimations for objects in the scene.

arxiv情報

著者 Chonghao Zhong,Chao Xu
発行日 2024-10-07 09:43:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Bayesian Optimization for Sample-Efficient Policy Improvement in Robotic Manipulation

要約

サンプルの操作スキルを効率的に学習することは、ロボット工学において大きな課題となっています。
最近のアプローチでは、対処できるタスクの種類や組み込むことができるセンシング手法において目覚ましい進歩が見られますが、依然として大量のトレーニング データが必要です。
特に、現実世界でのロボットの動作の学習に関しては、デモンストレーションと現実世界のロボットの相互作用の両方に関連するコストが高いため、これは大きな問題を引き起こします。
この課題に対処するために、模倣学習と独自の経験収集を組み合わせたハイブリッド アプローチである BOpt-GMM を導入します。
まず、いくつかのデモンストレーションから、ガウス混合モデルにエンコードされた動的システムとしてのスキル モデルを学習します。
次に、まばらな報酬設定での少数の自律的なスキルの実行に基づいて構築されたベイジアン最適化を使用して、このモデルを改善します。
シミュレーションと現実世界の実験の両方で、複数の複雑な操作スキルに対するアプローチのサンプル効率を実証します。
さらに、コードと事前トレーニングされたモデルは http://bopt-gmm で公開されています。
cs.uni-freiburg.de。

要約(オリジナル)

Sample efficient learning of manipulation skills poses a major challenge in robotics. While recent approaches demonstrate impressive advances in the type of task that can be addressed and the sensing modalities that can be incorporated, they still require large amounts of training data. Especially with regard to learning actions on robots in the real world, this poses a major problem due to the high costs associated with both demonstrations and real-world robot interactions. To address this challenge, we introduce BOpt-GMM, a hybrid approach that combines imitation learning with own experience collection. We first learn a skill model as a dynamical system encoded in a Gaussian Mixture Model from a few demonstrations. We then improve this model with Bayesian optimization building on a small number of autonomous skill executions in a sparse reward setting. We demonstrate the sample efficiency of our approach on multiple complex manipulation skills in both simulations and real-world experiments. Furthermore, we make the code and pre-trained models publicly available at http://bopt-gmm. cs.uni-freiburg.de.

arxiv情報

著者 Adrian Röfer,Iman Nematollahi,Tim Welschehold,Wolfram Burgard,Abhinav Valada
発行日 2024-10-07 09:52:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする