HELM: Human-Preferred Exploration with Language Models

要約

自律調査タスクでは、動的で不確実な条件で効率的に計画しながら、未知の環境を探索およびマッピングするためにロボットが必要です。
環境の大幅なばらつきを考えると、人間のオペレーターは、特定の領域の優先順位付けや効率のさまざまな側面の最適化など、探索の特定の優先要件をしばしば持っています。
ただし、既存の方法は、これらの人間の好みに適応的に対応するのに苦労しており、多くの場合、広範なパラメーターチューニングまたはネットワーク再訓練が必要です。
テキストベースの計画と複雑な推論に広く適用されている大規模な言語モデル(LLMS)の最近の進歩により、自律探査を強化する可能性はますます有望になっています。
これに動機付けられて、モバイルロボットシステムをLLMとシームレスに統合するLLMベースのヒトプロファーレーリングエクスプレーションフレームワークを提案します。
LLMSの推論と適応性を活用することにより、当社のアプローチにより、最先端の従来の方法に匹敵するタスクの成功率を維持しながら、自然言語を通じて直感的で柔軟な選好制御が可能になります。
実験結果は、私たちのフレームワークが、自律探査における人間の意図と政策選好のギャップを効果的に橋渡しし、実際のロボットアプリケーション向けのよりユーザーフレンドリーで適応性のあるソリューションを提供することを示しています。

要約(オリジナル)

In autonomous exploration tasks, robots are required to explore and map unknown environments while efficiently planning in dynamic and uncertain conditions. Given the significant variability of environments, human operators often have specific preference requirements for exploration, such as prioritizing certain areas or optimizing for different aspects of efficiency. However, existing methods struggle to accommodate these human preferences adaptively, often requiring extensive parameter tuning or network retraining. With the recent advancements in Large Language Models (LLMs), which have been widely applied to text-based planning and complex reasoning, their potential for enhancing autonomous exploration is becoming increasingly promising. Motivated by this, we propose an LLM-based human-preferred exploration framework that seamlessly integrates a mobile robot system with LLMs. By leveraging the reasoning and adaptability of LLMs, our approach enables intuitive and flexible preference control through natural language while maintaining a task success rate comparable to state-of-the-art traditional methods. Experimental results demonstrate that our framework effectively bridges the gap between human intent and policy preference in autonomous exploration, offering a more user-friendly and adaptable solution for real-world robotic applications.

arxiv情報

著者 Shuhao Liao,Xuxin Lv,Yuhong Cao,Jeric Lew,Wenjun Wu,Guillaume Sartoretti
発行日 2025-03-10 07:40:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | HELM: Human-Preferred Exploration with Language Models はコメントを受け付けていません

Learning Nash Equilibrial Hamiltonian for Two-Player Collision-Avoiding Interactions

要約

2プレイヤーのリスクに敏感な衝突を回避する相互作用のためのナッシュ平衡ポリシーを学ぶ問題を検討します。
このような一般的な微分ゲームのハミルトン・ジャコビ・イサクス方程式をリアルタイムで解決することは、状態空間の平衡値の不連続性のために、オープンな挑戦です。
一般的な解決策は、特定のシステム状態とアクションの平衡ハミルトニアンに近いニューラルネットワークを学習することです。
ただし、学習は通常監視されており、衝突のリスクを軽減するために、さまざまな初期状態からの大量のサンプル平衡ポリシーが必要です。
このホワイトペーパーでは、平衡ポリシーのよりデータ効率の高い学習に対する2つの貢献を主張しています。まず、バリューネットワークを介してハミルトニアンを計算する代わりに、平衡回避がエージェントの損失機能を支配する場合、衝突回避がエージェントの損失機能を支配している場合、したがって学習するためのデータ効率であることを示します。
第二に、理論主導のアクティブ学習を導入してデータサンプリングをガイドします。ここでは、取得関数が予測された共同ステートのポントリアギンの最大原則へのコンプライアンスを測定します。
制御されていない交差点の場合、提案された方法は、同じデータ収集予算の下での最先端よりも平衡ポリシーのより一般化可能な近似につながり、衝突確率が低くなります。

要約(オリジナル)

We consider the problem of learning Nash equilibrial policies for two-player risk-sensitive collision-avoiding interactions. Solving the Hamilton-Jacobi-Isaacs equations of such general-sum differential games in real time is an open challenge due to the discontinuity of equilibrium values on the state space. A common solution is to learn a neural network that approximates the equilibrium Hamiltonian for given system states and actions. The learning, however, is usually supervised and requires a large amount of sample equilibrium policies from different initial states in order to mitigate the risks of collisions. This paper claims two contributions towards more data-efficient learning of equilibrium policies: First, instead of computing Hamiltonian through a value network, we show that the equilibrium co-states have simple structures when collision avoidance dominates the agents’ loss functions and system dynamics is linear, and therefore are more data-efficient to learn. Second, we introduce theory-driven active learning to guide data sampling, where the acquisition function measures the compliance of the predicted co-states to Pontryagin’s Maximum Principle. On an uncontrolled intersection case, the proposed method leads to more generalizable approximation of the equilibrium policies, and in turn, lower collision probabilities, than the state-of-the-art under the same data acquisition budget.

arxiv情報

著者 Lei Zhang,Siddharth Das,Tanner Merry,Wenlong Zhang,Yi Ren
発行日 2025-03-10 07:52:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, cs.RO | Learning Nash Equilibrial Hamiltonian for Two-Player Collision-Avoiding Interactions はコメントを受け付けていません

How to Train Your Robots? The Impact of Demonstration Modality on Imitation Learning

要約

模倣学習は、ユーザーが提供するデータを使用してロボットポリシーを学習するための有望なアプローチです。
デモンストレーションが提供される方法、つまりデモのモダリティは、データの品質に影響を与えます。
既存の研究では、活動性の教育(ロボットの物理的ガイド)が直感性と使いやすさのためにユーザーが好むことを示していますが、既存の操作データセットの大部分はVRコントローラーまたは空間を介してテレオ操作を通じて収集されました。
この作業では、さまざまなデモのモダリティがダウンストリーム学習パフォーマンスとユーザーエクスペリエンスにどのように影響するかを調査します。
具体的には、運動感覚教育、VRコントローラーによるテレオ操作、宇宙造影剤コントローラーとのテレオ操作など、低コストのデモンストレーションモダリティを比較します。
さまざまなモーション制約を備えた3つのテーブルトップ操作タスクを実験します。
さまざまなデモモダリティからのデータを使用して、模倣学習パフォーマンスを評価および比較し、ユーザーエクスペリエンスに関する主観的なフィードバックを収集しました。
私たちの結果は、運動感覚の教育がロボットを制御するのに最も直感的であると評価されており、最高の下流の学習パフォーマンスのための最もクリーンなデータを提供することを示しています。
ただし、物理的な負荷のため、大規模なデータ収集の方法としては好まれません。
このような洞察に基づいて、少数のデータ収集の努力を維持しながら、テレオ操作を通じて収集されたデータと混合されたデータと混合された少数の運動感覚デモに依存する単純なデータ収集スキームを提案します。

要約(オリジナル)

Imitation learning is a promising approach for learning robot policies with user-provided data. The way demonstrations are provided, i.e., demonstration modality, influences the quality of the data. While existing research shows that kinesthetic teaching (physically guiding the robot) is preferred by users for the intuitiveness and ease of use, the majority of existing manipulation datasets were collected through teleoperation via a VR controller or spacemouse. In this work, we investigate how different demonstration modalities impact downstream learning performance as well as user experience. Specifically, we compare low-cost demonstration modalities including kinesthetic teaching, teleoperation with a VR controller, and teleoperation with a spacemouse controller. We experiment with three table-top manipulation tasks with different motion constraints. We evaluate and compare imitation learning performance using data from different demonstration modalities, and collected subjective feedback on user experience. Our results show that kinesthetic teaching is rated the most intuitive for controlling the robot and provides cleanest data for best downstream learning performance. However, it is not preferred as the way for large-scale data collection due to the physical load. Based on such insight, we propose a simple data collection scheme that relies on a small number of kinesthetic demonstrations mixed with data collected through teleoperation to achieve the best overall learning performance while maintaining low data-collection effort.

arxiv情報

著者 Haozhuo Li,Yuchen Cui,Dorsa Sadigh
発行日 2025-03-10 07:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | How to Train Your Robots? The Impact of Demonstration Modality on Imitation Learning はコメントを受け付けていません

Combating Partial Perception Deficit in Autonomous Driving with Multimodal LLM Commonsense

要約

部分的な認識障害は、環境の理解を混乱させることにより、自律的な車両の安全性を損なう可能性があります。
現在のプロトコルは通常、即時の停止または最小限のリスクの操作で応答し、トラフィックの流れが悪化し、まれな運転シナリオの柔軟性がありません。
このホワイトペーパーでは、LLM-RCOを提案します。LLM-RCOは、人間のような運転の常識を知覚障害に直面する自律システムに統合するための大規模な言語モデルを活用するフレームワークであると提案します。
LLM-RCOには、ハザード推論、短期モーションプランナー、アクション条件検証剤、および安全制約ジェネレーターの4つの重要なモジュールがあります。
これらのモジュールは、動的な駆動環境と相互作用し、自律エージェントの元の制御ポリシーをオーバーライドするためのプロアクティブでコンテキスト対応の制御アクションを可能にします。
このような困難な条件での安全性を改善するために、LLMベースのハザード推論とモーションプランニング微調整の注釈を備えた、安全性が批判的なオブジェクトの赤字を備えた53,895のビデオクリップのデータセットであるDrivelm-Deficitを構築します。
CARLAシミュレーターによる有害な運転条件の広範な実験は、LLM-RCOを装備したシステムが運転性能を大幅に改善し、有害な知覚障害に対する自律運転の回復力を高める可能性を強調することを示しています。
また、我々の結果は、Drivelm-Deficitで微調整されたLLMが、知覚赤字の文脈で保守的な停止の代わりに、より積極的な動きを可能にする可能性があることを示しています。

要約(オリジナル)

Partial perception deficits can compromise autonomous vehicle safety by disrupting environmental understanding. Current protocols typically respond with immediate stops or minimal-risk maneuvers, worsening traffic flow and lacking flexibility for rare driving scenarios. In this paper, we propose LLM-RCO, a framework leveraging large language models to integrate human-like driving commonsense into autonomous systems facing perception deficits. LLM-RCO features four key modules: hazard inference, short-term motion planner, action condition verifier, and safety constraint generator. These modules interact with the dynamic driving environment, enabling proactive and context-aware control actions to override the original control policy of autonomous agents. To improve safety in such challenging conditions, we construct DriveLM-Deficit, a dataset of 53,895 video clips featuring deficits of safety-critical objects, complete with annotations for LLM-based hazard inference and motion planning fine-tuning. Extensive experiments in adverse driving conditions with the CARLA simulator demonstrate that systems equipped with LLM-RCO significantly improve driving performance, highlighting its potential for enhancing autonomous driving resilience against adverse perception deficits. Our results also show that LLMs fine-tuned with DriveLM-Deficit can enable more proactive movements instead of conservative stops in the context of perception deficits.

arxiv情報

著者 Yuting Hu,Chenhui Xu,Ruiyang Qin,Dancheng Liu,Amir Nassereldine,Yiyu Shi,Jinjun Xiong
発行日 2025-03-10 08:01:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Combating Partial Perception Deficit in Autonomous Driving with Multimodal LLM Commonsense はコメントを受け付けていません

VMTS: Vision-Assisted Teacher-Student Reinforcement Learning for Multi-Terrain Locomotion in Bipedal Robots

要約

Bipedal Robotsは、擬人化された設計により、さまざまなアプリケーションでかなりの可能性を提供しますが、その制御は構造の複雑さによって妨げられています。
現在、ほとんどの研究は、複雑な地形を克服する能力を欠いている固有受容ベースの方法に焦点を当てています。
視覚的認識は人間中心の環境での動作に不可欠ですが、その統合は制御をさらに複雑にします。
最近の強化学習(RL)アプローチは、特に固有受容ベースの方法で、足のロボットの移動を強化することに有望であることを示しています。
ただし、特に二足歩行ロボットの地形適応性は、依然として大きな課題であり、ほとんどの研究は平坦な地形シナリオに焦点を当てています。
このペーパーでは、専門家の教師と学生のネットワークRL戦略の新しい混合物を紹介します。これは、シンプルで効果的なアプローチを通じて視覚入力に基づいて教師と学生のポリシーのパフォーマンスを向上させます。
私たちの方法は、地形の選択戦略と教師ポリシーを組み合わせて、従来のモデルと比較して優れたパフォーマンスをもたらします。
さらに、多様な地形をナビゲートする学生の能力を向上させるために、厳格な類似性を強制するのではなく、教師と生徒のネットワーク間にアライメント損失を導入します。
Limx Dynamic P1 Bipedal Robotでアプローチを実験的に検証し、複数の地形タイプにわたってその実現可能性と堅牢性を示しています。

要約(オリジナル)

Bipedal robots, due to their anthropomorphic design, offer substantial potential across various applications, yet their control is hindered by the complexity of their structure. Currently, most research focuses on proprioception-based methods, which lack the capability to overcome complex terrain. While visual perception is vital for operation in human-centric environments, its integration complicates control further. Recent reinforcement learning (RL) approaches have shown promise in enhancing legged robot locomotion, particularly with proprioception-based methods. However, terrain adaptability, especially for bipedal robots, remains a significant challenge, with most research focusing on flat-terrain scenarios. In this paper, we introduce a novel mixture of experts teacher-student network RL strategy, which enhances the performance of teacher-student policies based on visual inputs through a simple yet effective approach. Our method combines terrain selection strategies with the teacher policy, resulting in superior performance compared to traditional models. Additionally, we introduce an alignment loss between the teacher and student networks, rather than enforcing strict similarity, to improve the student’s ability to navigate diverse terrains. We validate our approach experimentally on the Limx Dynamic P1 bipedal robot, demonstrating its feasibility and robustness across multiple terrain types.

arxiv情報

著者 Fu Chen,Rui Wan,Peidong Liu,Nanxing Zheng,Bo Zhou
発行日 2025-03-10 08:35:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | VMTS: Vision-Assisted Teacher-Student Reinforcement Learning for Multi-Terrain Locomotion in Bipedal Robots はコメントを受け付けていません

RoboReflect: A Robotic Reflective Reasoning Framework for Grasping Ambiguous-Condition Objects

要約

ロボット技術が急速に発展するにつれて、ロボットはますます多くの分野で採用されています。
ただし、展開環境の複雑さまたは曖昧な条件オブジェクトの有病率により、ロボット工学の実際のアプリケーションは依然として多くの課題に直面しており、頻繁なエラーにつながります。
従来の方法といくつかのLLMベースのアプローチは改善されていますが、依然としてかなりの人間の介入を必要とし、複雑なシナリオでの自律的なエラー補正との闘いが必要です。
この作業では、ロボット把握タスクにおける自己反射と自律的なエラー補正を可能にするために、大規模なビジョン言語モデル(LVLMS)を活用する新しいフレームワークであるRoboreFlectを提案します。
RoboreFlectにより、ロボットは、実行が成功するまで成功した試みに基づいて戦略を自動的に調整できます。
修正された戦略は、将来のタスク参照のためにメモリに保存されます。
3つのカテゴリのあいまいな条件になりやすい8つの一般的なオブジェクトの広範なテストを通じて、RoboreFltectを評価します。
我々の結果は、RoboreFluctがGPT-4Vで再起動するgraspや高レベルのアクション計画手法のような既存の把握ポーズ推定方法よりも優れているだけでなく、ロボットの能力を大幅に向上させることを示しています。
これらの発見は、ロボットシステムにおける自律的な自己反省の重要性を強調しながら、あいまいな条件環境によってもたらされる課題に効果的に対処します。

要約(オリジナル)

As robotic technology rapidly develops, robots are being employed in an increasing number of fields. However, due to the complexity of deployment environments or the prevalence of ambiguous-condition objects, the practical application of robotics still faces many challenges, leading to frequent errors. Traditional methods and some LLM-based approaches, although improved, still require substantial human intervention and struggle with autonomous error correction in complex scenarios. In this work, we propose RoboReflect, a novel framework leveraging large vision-language models (LVLMs) to enable self-reflection and autonomous error correction in robotic grasping tasks. RoboReflect allows robots to automatically adjust their strategies based on unsuccessful attempts until successful execution is achieved. The corrected strategies are saved in the memory for future task reference. We evaluate RoboReflect through extensive testing on eight common objects prone to ambiguous conditions of three categories. Our results demonstrate that RoboReflect not only outperforms existing grasp pose estimation methods like AnyGrasp and high-level action planning techniques ReKep with GPT-4V but also significantly enhances the robot’s capability to adapt and correct errors independently. These findings underscore the critical importance of autonomous self-reflection in robotic systems while effectively addressing the challenges posed by ambiguous-condition environments.

arxiv情報

著者 Zhen Luo,Yixuan Yang,Yanfu Zhang,Feng Zheng
発行日 2025-03-10 08:46:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RoboReflect: A Robotic Reflective Reasoning Framework for Grasping Ambiguous-Condition Objects はコメントを受け付けていません

RS2V-L: Vehicle-Mounted LiDAR Data Generation from Roadside Sensor Observations

要約

洗練された制御コマンドを直接生成してマルチモーダル感覚データを処理するエンドツーエンドの自律駆動ソリューションは、自律運転研究の支配的なパラダイムになりました。
ただし、これらのアプローチは主にモデルトレーニングと最適化のための単一車両データ収集に依存しており、高いデータ収集と注釈コスト、重要な運転シナリオの希少性、モデルの一般化を妨げる断片化されたデータセットなどの重要な課題をもたらします。
これらの制限を緩和するために、RS2V-Lを導入します。RS2V-Lは、路傍センサーの観測から車両に取り付けられたLIDARデータを再構築および合成するための新しいフレームワークです。
具体的には、我々の方法では、ターゲットビークルの相対ポーズを活用することにより、道端のライダー点雲を車両に取り付けられたライダー座標系に変換します。
その後、高忠実度の車両に取り付けられたLIDARデータは、仮想LIDARモデリング、ポイントクラウド分類、および再サンプリング技術を通じて合成されます。
私たちの知る限り、これは道端のセンサー入力から車両に取り付けられたLIDARデータを再構築する最初のアプローチです。
広範な実験的評価は、生成されたデータをモデルトレーニングに組み込むことを、Kitti Dataset-Enhances 3Dオブジェクト検出精度を\ Text {30 \%} over {30 \%}で組み込み、エンドツーエンドの自動駆動データ生成の効率を大きくすることで改善することを示しています。
これらの調査結果は、提案された方法の有効性を強く検証し、自律運転モデル​​の堅牢性を改善しながら、高価な車両に取り付けられたデータ収集への依存を減らす可能性を強調しています。

要約(オリジナル)

End-to-end autonomous driving solutions, which process multi-modal sensory data to directly generate refined control commands, have become a dominant paradigm in autonomous driving research. However, these approaches predominantly depend on single-vehicle data collection for model training and optimization, resulting in significant challenges such as high data acquisition and annotation costs, the scarcity of critical driving scenarios, and fragmented datasets that impede model generalization. To mitigate these limitations, we introduce RS2V-L, a novel framework for reconstructing and synthesizing vehicle-mounted LiDAR data from roadside sensor observations. Specifically, our method transforms roadside LiDAR point clouds into the vehicle-mounted LiDAR coordinate system by leveraging the target vehicle’s relative pose. Subsequently, high-fidelity vehicle-mounted LiDAR data is synthesized through virtual LiDAR modeling, point cloud classification, and resampling techniques. To the best of our knowledge, this is the first approach to reconstruct vehicle-mounted LiDAR data from roadside sensor inputs. Extensive experimental evaluations demonstrate that incorporating the generated data into model training-complementing the KITTI dataset-enhances 3D object detection accuracy by over \text{30\%} while improving the efficiency of end-to-end autonomous driving data generation by more than an order of magnitude. These findings strongly validate the effectiveness of the proposed method and underscore its potential in reducing dependence on costly vehicle-mounted data collection while improving the robustness of autonomous driving models.

arxiv情報

著者 Ruidan Xing,Runyi Huang,Qing Xu,Lei He
発行日 2025-03-10 09:08:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RS2V-L: Vehicle-Mounted LiDAR Data Generation from Roadside Sensor Observations はコメントを受け付けていません

iManip: Skill-Incremental Learning for Robotic Manipulation

要約

適応的な複数の操作スキルを備えたジェネラリストのエージェントの開発は、ロボットコミュニティで長年の目標となっています。
この論文では、ロボット操作において、重要なタスクであるスキル – 能力学習を調査します。これは、再訓練なしで以前の学習知識に基づいて新しい操作スキルを学習する能力をロボットに与えることです。
まず、RLBenchベンチマークに基づいてスキルインクリメンタル環境を構築し、この設定で従来のインクリメンタルメソッドがどのように機能するかを調査します。
ロボット操作タスクの時間性と作用の複雑さの特性を見落とす分類に関する以前の方法により、彼らは重度の壊滅的な忘却に苦しんでいることがわかります。
この目的に向けて、上記の問題を軽減するために、Imanipと呼ばれる増分マニップ} ulationフレームワークを提案します。
まず、新しいスキルを学ぶときに古いスキルの完全性を維持するための一時的なリプレイ戦略を設計します。
さらに、新しいスキルの新しいアクションプリミティブに適応するために、拡張可能な重量を持つアクションプロンプトで構成される拡張可能な知覚型を提案します。
広範な実験では、私たちのフレームワークがスキルの学習でうまく機能することが示されています。
私たちのフレームワークを備えたスキル関節環境のコードは、オープンソースになります。

要約(オリジナル)

The development of a generalist agent with adaptive multiple manipulation skills has been a long-standing goal in the robotics community. In this paper, we explore a crucial task, skill-incremental learning, in robotic manipulation, which is to endow the robots with the ability to learn new manipulation skills based on the previous learned knowledge without re-training. First, we build a skill-incremental environment based on the RLBench benchmark, and explore how traditional incremental methods perform in this setting. We find that they suffer from severe catastrophic forgetting due to the previous methods on classification overlooking the characteristics of temporality and action complexity in robotic manipulation tasks. Towards this end, we propose an incremental Manip}ulation framework, termed iManip, to mitigate the above issues. We firstly design a temporal replay strategy to maintain the integrity of old skills when learning new skill. Moreover, we propose the extendable PerceiverIO, consisting of an action prompt with extendable weight to adapt to new action primitives in new skill. Extensive experiments show that our framework performs well in Skill-Incremental Learning. Codes of the skill-incremental environment with our framework will be open-source.

arxiv情報

著者 Zexin Zheng,Jia-Feng Cai,Xiao-Ming Wu,Yi-Lin Wei,Yu-Ming Tang,Wei-Shi Zheng
発行日 2025-03-10 09:10:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | iManip: Skill-Incremental Learning for Robotic Manipulation はコメントを受け付けていません

Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination

要約

世界モデルは、エージェントにその環境の表現を提供し、その行動の因果的な結果を予測できるようにします。
現在の世界モデルは通常、ロボットの前の実際の環境を直接かつ明示的に模倣することはできません。多くの場合、実際のロボット工学アプリケーションに適していない非現実的な行動や幻覚をもたらします。
これらの課題を克服するために、ロボットの世界モデルを学習可能なデジタル双子として再考することを提案します。
現実世界とそのダイナミクスの学習した明示的な表現を使用して、デジタル双子を自動的に構築するための新しいアプローチであるDremaを紹介し、従来のデジタル双子と世界モデルのギャップを埋めます。
DREMAは、ガウスのスプラッティングと物理シミュレーターを統合することにより、観察された世界とその構造を複製し、ロボットがオブジェクトの新しい構成を想像し、その構成のおかげでロボットアクションの将来の結果を予測できるようにします。
この機能を活用して、等垂直変換を小さなデモに適用することにより、模倣学習のための新しいデータを生成します。
さまざまな設定にわたる評価は、アクションとオブジェクト分布を増やすことにより、精度と堅牢性の大幅な改善を示し、ポリシーを学習し、エージェントの一般化を改善するために必要なデータを削減します。
ハイライトとして、Dremaの想像力を搭載した本物のFranka Emika Pandaロボットは、タスクのバリエーションごとに単一の例から新しい物理的タスク(ワンショットポリシー学習)から成功裏に学習できることを示しています。
プロジェクトページは、https://dreamtomanipulate.github.io/にあります。

要約(オリジナル)

A world model provides an agent with a representation of its environment, enabling it to predict the causal consequences of its actions. Current world models typically cannot directly and explicitly imitate the actual environment in front of a robot, often resulting in unrealistic behaviors and hallucinations that make them unsuitable for real-world robotics applications. To overcome those challenges, we propose to rethink robot world models as learnable digital twins. We introduce DreMa, a new approach for constructing digital twins automatically using learned explicit representations of the real world and its dynamics, bridging the gap between traditional digital twins and world models. DreMa replicates the observed world and its structure by integrating Gaussian Splatting and physics simulators, allowing robots to imagine novel configurations of objects and to predict the future consequences of robot actions thanks to its compositionality. We leverage this capability to generate new data for imitation learning by applying equivariant transformations to a small set of demonstrations. Our evaluations across various settings demonstrate significant improvements in accuracy and robustness by incrementing actions and object distributions, reducing the data needed to learn a policy and improving the generalization of the agents. As a highlight, we show that a real Franka Emika Panda robot, powered by DreMa’s imagination, can successfully learn novel physical tasks from just a single example per task variation (one-shot policy learning). Our project page can be found in: https://dreamtomanipulate.github.io/.

arxiv情報

著者 Leonardo Barcellona,Andrii Zadaianchuk,Davide Allegro,Samuele Papa,Stefano Ghidoni,Efstratios Gavves
発行日 2025-03-10 09:40:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination はコメントを受け付けていません

Performance-driven Constrained Optimal Auto-Tuner for MPC

要約

モデル予測制御(MPC)コスト関数パラメーターの調整における重要な課題は、システムのパフォーマンスが一貫して特定のしきい値を上回ることを保証することです。
この課題に対処するために、MPC用の最適な最適な自動チューナーの新しい方法であるCoat-MPCを提案します。
チューニングごとに、Coat-MPCはパフォーマンスデータを収集し、その事後信念を更新することで学習します。
目標指向の方法で楽観的なパラメーターに向けたチューニングパラメーターのドメインを調査します。これは、サンプル効率の鍵です。
理論的には、Coat-MPCを分析し、常に任意の高い確率でパフォーマンスの制約を満たし、有限の時間内に最適なパフォーマンスに収束することを示します。
包括的なシミュレーションとハードウェアプラットフォームとの比較分析により、古典的なベイジアン最適化(BO)およびその他の最先端の方法と比較して、COAT-MPCの有効性を実証します。
自律的なレースに適用されると、私たちのアプローチは、制約違反と時間の経過に伴う累積的な後悔の観点からベースラインよりも優れています。

要約(オリジナル)

A key challenge in tuning Model Predictive Control (MPC) cost function parameters is to ensure that the system performance stays consistently above a certain threshold. To address this challenge, we propose a novel method, COAT-MPC, Constrained Optimal Auto-Tuner for MPC. With every tuning iteration, COAT-MPC gathers performance data and learns by updating its posterior belief. It explores the tuning parameters’ domain towards optimistic parameters in a goal-directed fashion, which is key to its sample efficiency. We theoretically analyze COAT-MPC, showing that it satisfies performance constraints with arbitrarily high probability at all times and provably converges to the optimum performance within finite time. Through comprehensive simulations and comparative analyses with a hardware platform, we demonstrate the effectiveness of COAT-MPC in comparison to classical Bayesian Optimization (BO) and other state-of-the-art methods. When applied to autonomous racing, our approach outperforms baselines in terms of constraint violations and cumulative regret over time.

arxiv情報

著者 Albert Gassol Puigjaner,Manish Prajapat,Andrea Carron,Andreas Krause,Melanie N. Zeilinger
発行日 2025-03-10 09:56:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Performance-driven Constrained Optimal Auto-Tuner for MPC はコメントを受け付けていません