Symmetries-enhanced Multi-Agent Reinforcement Learning

要約

マルチエージェントの強化学習は、エージェントが複雑で調整された行動を学習できるようにするための強力なフレームワークとして浮上していますが、その一般化、スケーラビリティ、サンプル効率に関する持続的な課題に直面しています。
最近の進歩は、ポリシーにシステムの固有の対称性を埋め込むことにより、これらの問題を軽減しようとしています。
しかし、ほとんどの動的システムは、悪用する対称性をほとんどまたはまったく示しません。
この論文では、対称性を強化するメソッドを使用して、本質的な対称性が不十分であるシステムに対処し、等量学習の範囲をさまざまなMARL問題に拡大できるように、マルチエージェントシステムダイナミクスに外因性対称性を埋め込むための新しいフレームワークを紹介します。
私たちのフレームワークの中心は、分散群れタスク用に特別に設計されたグループモジュラーアーキテクチャであるGroup Equivariant Graphormerです。
対称性を破る四つの群れに関する広範な実験は、私たちのアプローチの有効性を検証し、一般化の改善とゼロショットのスケーラビリティの可能性を示しています。
私たちの方法は、衝突率の大幅な低下を達成し、多様なシナリオとさまざまな群れサイズでタスクの成功率を高めます。

要約(オリジナル)

Multi-agent reinforcement learning has emerged as a powerful framework for enabling agents to learn complex, coordinated behaviors but faces persistent challenges regarding its generalization, scalability and sample efficiency. Recent advancements have sought to alleviate those issues by embedding intrinsic symmetries of the systems in the policy. Yet, most dynamical systems exhibit little to no symmetries to exploit. This paper presents a novel framework for embedding extrinsic symmetries in multi-agent system dynamics that enables the use of symmetry-enhanced methods to address systems with insufficient intrinsic symmetries, expanding the scope of equivariant learning to a wide variety of MARL problems. Central to our framework is the Group Equivariant Graphormer, a group-modular architecture specifically designed for distributed swarming tasks. Extensive experiments on a swarm of symmetry-breaking quadrotors validate the effectiveness of our approach, showcasing its potential for improved generalization and zero-shot scalability. Our method achieves significant reductions in collision rates and enhances task success rates across a diverse range of scenarios and varying swarm sizes.

arxiv情報

著者 Nikolaos Bousias,Stefanos Pertigkiozoglou,Kostas Daniilidis,George Pappas
発行日 2025-04-25 09:39:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO, math.RT | Symmetries-enhanced Multi-Agent Reinforcement Learning はコメントを受け付けていません

Whole-body End-Effector Pose Tracking

要約

操作と足のロボットの移動性を組み合わせることは、幅広いロボットアプリケーションに不可欠です。
ただし、アームをモバイルベースと統合すると、システムの複雑さが大幅に向上し、正確なエンドエフェクター制御が困難になります。
既存のモデルベースのアプローチは、多くの場合、モデリングの仮定によって制約され、堅牢性が限られています。
一方、最近の強化学習(RL)の実装により、アームのワークスペースはロボットの前にあるか、適切な追跡精度を得るための位置のみを追跡することを制限します。
この作業では、これらの制限に対処し、大まかな非構造化された地形の大きなワークスペースでエンドエフェクターポーズ追跡のために全身RL定式化を導入します。
提案された方法には、ロボットの初期構成とエンドエフェクターポーズコマンドのための地形認識サンプリング戦略と、ロボットの動作範囲を拡張するためのゲームベースのカリキュラムが含まれます。
6つのDOFロボットアームを使用して、Ansymal Quadrupedal Robotでのアプローチを検証します。
実験を通じて、学習したコントローラーが大きなワークスペースで正確なコマンド追跡を実現し、階段や斜面などのさまざまな地形に適応することを示します。
展開時には、2.64 cmと3.64度のポーズ追跡エラーが実現し、既存の競合ベースラインよりも優れています。

要約(オリジナル)

Combining manipulation with the mobility of legged robots is essential for a wide range of robotic applications. However, integrating an arm with a mobile base significantly increases the system’s complexity, making precise end-effector control challenging. Existing model-based approaches are often constrained by their modeling assumptions, leading to limited robustness. Meanwhile, recent Reinforcement Learning (RL) implementations restrict the arm’s workspace to be in front of the robot or track only the position to obtain decent tracking accuracy. In this work, we address these limitations by introducing a whole-body RL formulation for end-effector pose tracking in a large workspace on rough, unstructured terrains. Our proposed method involves a terrain-aware sampling strategy for the robot’s initial configuration and end-effector pose commands, as well as a game-based curriculum to extend the robot’s operating range. We validate our approach on the ANYmal quadrupedal robot with a six DoF robotic arm. Through our experiments, we show that the learned controller achieves precise command tracking over a large workspace and adapts across varying terrains such as stairs and slopes. On deployment, it achieves a pose-tracking error of 2.64 cm and 3.64 degrees, outperforming existing competitive baselines.

arxiv情報

著者 Tifanny Portela,Andrei Cramariuc,Mayank Mittal,Marco Hutter
発行日 2025-04-25 09:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY | Whole-body End-Effector Pose Tracking はコメントを受け付けていません

Depth-Constrained ASV Navigation with Deep RL and Limited Sensing

要約

自律型地表車(ASV)は、海事作戦で重要な役割を果たしますが、浅い水環境でのナビゲーションは、動的な障害と深さの制約のために依然として困難です。
従来のナビゲーション戦略は、限られたセンサー情報と闘い、安全で効率的な操作を困難にしています。
このホワイトペーパーでは、深さの制約の下でASVナビゲーションの強化学習(RL)フレームワークを提案します。ここでは、車両がターゲットに到達する必要がありますが、下向きの単一ビームエコーサウンダー(SBES)からタイムステップごとに単一の深度測定のみを避けます。
環境意識を高めるために、ガウスプロセス(GP)の回帰をRLフレームワークに統合し、エージェントがまばらなソナーの測定値から潜水孔の深さマップを徐々に推定できるようにします。
このアプローチは、環境のより豊かな表現を提供することにより、意思決定を改善します。
さらに、効果的なSIMからリアルへの転送を実証し、訓練されたポリシーが実際の水生条件に適切に一般化することを保証します。
実験結果は、浅い水環境に挑戦するために安全性を維持しながら、ASVナビゲーションパフォーマンスを改善する方法の能力を検証します。

要約(オリジナル)

Autonomous Surface Vehicles (ASVs) play a crucial role in maritime operations, yet their navigation in shallow-water environments remains challenging due to dynamic disturbances and depth constraints. Traditional navigation strategies struggle with limited sensor information, making safe and efficient operation difficult. In this paper, we propose a reinforcement learning (RL) framework for ASV navigation under depth constraints, where the vehicle must reach a target while avoiding unsafe areas with only a single depth measurement per timestep from a downward-facing Single Beam Echosounder (SBES). To enhance environmental awareness, we integrate Gaussian Process (GP) regression into the RL framework, enabling the agent to progressively estimate a bathymetric depth map from sparse sonar readings. This approach improves decision-making by providing a richer representation of the environment. Furthermore, we demonstrate effective sim-to-real transfer, ensuring that trained policies generalize well to real-world aquatic conditions. Experimental results validate our method’s capability to improve ASV navigation performance while maintaining safety in challenging shallow-water environments.

arxiv情報

著者 Amirhossein Zhalehmehrabi,Daniele Meli,Francesco Dal Santo,Francesco Trotti,Alessandro Farinelli
発行日 2025-04-25 10:56:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Depth-Constrained ASV Navigation with Deep RL and Limited Sensing はコメントを受け付けていません

Design and Evaluation of a UGV-Based Robotic Platform for Precision Soil Moisture Remote Sensing

要約

この拡張抽象は、大規模な農業分野における土壌水分の高精度センシングのための自動化された無人地上車両(UGV)プラットフォームであるアグリオーネの設計と評価を示しています。
開発されたロボットシステムには、ロボットマニピュレーターに取り付けられた体積水含有量(VWC)センサーが装備されており、表面認識データ収集フレームワークを利用して、不均一な地形での正確な測定を確保しています。
このフレームワークは、センサーが土壌に浸透できない場合に無効なデータポイントを識別および削除し、データの信頼性を確保します。
プラットフォームのパフォーマンスを検証するために複数のフィールド実験を実施しましたが、得られた結果はリアルタイムのデータ収集におけるアグリオーネロボットの有効性を示し、永続的なセンサーと労働集約的な方法の必要性を減らしました。

要約(オリジナル)

This extended abstract presents the design and evaluation of AgriOne, an automated unmanned ground vehicle (UGV) platform for high precision sensing of soil moisture in large agricultural fields. The developed robotic system is equipped with a volumetric water content (VWC) sensor mounted on a robotic manipulator and utilizes a surface-aware data collection framework to ensure accurate measurements in heterogeneous terrains. The framework identifies and removes invalid data points where the sensor fails to penetrate the soil, ensuring data reliability. Multiple field experiments were conducted to validate the platform’s performance, while the obtained results demonstrate the efficacy of the AgriOne robot in real-time data acquisition, reducing the need for permanent sensors and labor-intensive methods.

arxiv情報

著者 Ilektra Tsimpidi,Ilias Tevetzidis,Vidya Sumathy,George Nikolakopoulos
発行日 2025-04-25 11:52:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Design and Evaluation of a UGV-Based Robotic Platform for Precision Soil Moisture Remote Sensing はコメントを受け付けていません

Optimal Control of Sensor-Induced Illusions on Robotic Agents

要約

このペーパーでは、2つのエージェントを考慮したローカリゼーションとナビゲーションの幻想を作成および規制するという新しい問題を紹介します。レシーバーとプロデューサーです。
レシーバーは、その位置で観察された3つの既知の塔からの信号の強度を使用して、それ自体をローカライズする飛行機で移動しています。
この位置の推定に基づいて、目標を達成するための単純なポリシーに従います。
重要なアイデアは、生産者が信号の強度を変更して、レシーバーの位置推定値を変更しながら、目標に達したという信念を持って別の目的地に到達するようにすることです。
この問題の正確な数学的定式化を提供し、制御理論からの標準的な手法を適用して、望ましい受信者の動作をもたらすローカリゼーションとナビゲーションの幻想を生成できることを示します。

要約(オリジナル)

This paper presents a novel problem of creating and regulating localization and navigation illusions considering two agents: a receiver and a producer. A receiver is moving on a plane localizing itself using the intensity of signals from three known towers observed at its position. Based on this position estimate, it follows a simple policy to reach its goal. The key idea is that a producer alters the signal intensities to alter the position estimate of the receiver while ensuring it reaches a different destination with the belief that it reached its goal. We provide a precise mathematical formulation of this problem and show that it allows standard techniques from control theory to be applied to generate localization and navigation illusions that result in a desired receiver behavior.

arxiv情報

著者 Lorenzo Medici,Steven M. LaValle,Basak Sakcak
発行日 2025-04-25 13:27:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Optimal Control of Sensor-Induced Illusions on Robotic Agents はコメントを受け付けていません

Let’s Make a Splan: Risk-Aware Trajectory Optimization in a Normalized Gaussian Splat

要約

ニューラル放射輝度のフィールドとガウスの飛び散は、複雑なシーンの写真と現実的な表現を可能にすることにより、最近コンピュータービジョンを変えました。
ただし、軌道最適化などの現実世界のロボットタスクでは、アプリケーションが限られています。
これは、放射輝度モデルの衝突と、密なモデルでの動作に関連する計算の複雑さについての推論の困難によるものです。
このペーパーでは、ガウススプラッティングモデルで動作するリスク認識の軌道オプティマイザーであるスプランニングを提案することにより、これらの課題に対処します。
この論文は、最初に、ロボットと輝きフィールドの間の衝突の可能性を厳密に上に縛る方法を導き出します。
次に、このペーパーでは、この衝突バウンドの効率的な計算を可能にするガウススプラッティングの正規化された再定式化を紹介します。
最後に、このペーパーでは、ガウスのスプラットの衝突を避ける軌跡を最適化する方法を紹介します。
実験では、スプラニングが散らかった環境で衝突のない軌跡を生成する際に最先端の方法を上回ることが示されています。
提案されたシステムは、実際のロボットマニピュレーターでもテストされています。
プロジェクトページは、https://roahmlab.github.io/splanningで入手できます。

要約(オリジナル)

Neural Radiance Fields and Gaussian Splatting have recently transformed computer vision by enabling photo-realistic representations of complex scenes. However, they have seen limited application in real-world robotics tasks such as trajectory optimization. This is due to the difficulty in reasoning about collisions in radiance models and the computational complexity associated with operating in dense models. This paper addresses these challenges by proposing SPLANNING, a risk-aware trajectory optimizer operating in a Gaussian Splatting model. This paper first derives a method to rigorously upper-bound the probability of collision between a robot and a radiance field. Then, this paper introduces a normalized reformulation of Gaussian Splatting that enables efficient computation of this collision bound. Finally, this paper presents a method to optimize trajectories that avoid collisions in a Gaussian Splat. Experiments show that SPLANNING outperforms state-of-the-art methods in generating collision-free trajectories in cluttered environments. The proposed system is also tested on a real-world robot manipulator. A project page is available at https://roahmlab.github.io/splanning.

arxiv情報

著者 Jonathan Michaux,Seth Isaacson,Challen Enninful Adu,Adam Li,Rahul Kashyap Swayampakula,Parker Ewen,Sean Rice,Katherine A. Skinner,Ram Vasudevan
発行日 2025-04-25 14:19:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Let’s Make a Splan: Risk-Aware Trajectory Optimization in a Normalized Gaussian Splat はコメントを受け付けていません

Enhancing System Self-Awareness and Trust of AI: A Case Study in Trajectory Prediction and Planning

要約

自動運転の軌跡計画では、他の道路利用者の緊急行動を予測するために、データ駆動型の統計人工知能(AI)方法がますます確立されています。
これらの方法は、定義されたデータセットで例外的なパフォーマンスを実現しますが、通常、独立した同一に分布した(I.I.D.)仮定に依存しているため、現実世界で発生する分布シフトに対して脆弱である傾向があります。
さらに、これらの方法は、ブラックボックスの性質のために説明可能性を欠いており、承認プロセスと社会的信頼性の観点からさらに課題をもたらします。
したがって、データ駆動型の統計的AIメソッドの機能を信頼できる信頼できる方法で使用するために、TrustMHEの概念をこのペーパーで紹介および調査します。
TrustMheは、基礎となるAIシステムとは無関係に、AI駆動型の分散除外検出と制御駆動型の移動ホライズン推定(MHE)を組み合わせて、検出と監視だけでなく介入も可能にする補完的なアプローチを表します。
提案された信託の有効性は、3つのシミュレーションシナリオで評価および証明されています。

要約(オリジナル)

In the trajectory planning of automated driving, data-driven statistical artificial intelligence (AI) methods are increasingly established for predicting the emergent behavior of other road users. While these methods achieve exceptional performance in defined datasets, they usually rely on the independent and identically distributed (i.i.d.) assumption and thus tend to be vulnerable to distribution shifts that occur in the real world. In addition, these methods lack explainability due to their black box nature, which poses further challenges in terms of the approval process and social trustworthiness. Therefore, in order to use the capabilities of data-driven statistical AI methods in a reliable and trustworthy manner, the concept of TrustMHE is introduced and investigated in this paper. TrustMHE represents a complementary approach, independent of the underlying AI systems, that combines AI-driven out-of-distribution detection with control-driven moving horizon estimation (MHE) to enable not only detection and monitoring, but also intervention. The effectiveness of the proposed TrustMHE is evaluated and proven in three simulation scenarios.

arxiv情報

著者 Lars Ullrich,Zurab Mujirishvili,Knut Graichen
発行日 2025-04-25 15:29:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Enhancing System Self-Awareness and Trust of AI: A Case Study in Trajectory Prediction and Planning はコメントを受け付けていません

The Autonomous Software Stack of the FRED-003C: The Development That Led to Full-Scale Autonomous Racing

要約

科学的発展は、大学での在学中に献身的な学生が実施した研究プロジェクトの文脈でしばしば行われます。
自動運転ソフトウェア研究の分野では、フォーミュラの学生の無人競争は、研究を促進し、若いエンジニアを引き付けるための優れたプラットフォームです。
この記事では、BMEフォーミュラレーシングチームによって開発されたソフトウェアスタックを紹介します。これは、最終的にフルスケールの自律レースに導いた開発の基盤を形成しました。
ここで得た経験は、アブダビの自律レースリーグへの参加の成功に大きく貢献しています。
したがって、使用したシステムを共有し、他の野心的な学生に貴重な出発点を提供することが重要であると考えています。
ハードウェアソフトウェアアーキテクチャの簡単な説明など、使用したソフトウェアパイプラインの詳細な説明を提供します。
さらに、知覚を実装するモジュールのために開発した方法を紹介します。
ローカリゼーションとマッピング、計画、および制御タスク。

要約(オリジナル)

Scientific development often takes place in the context of research projects carried out by dedicated students during their time at university. In the field of self-driving software research, the Formula Student Driverless competitions are an excellent platform to promote research and attract young engineers. This article presents the software stack developed by BME Formula Racing Team, that formed the foundation of the development that ultimately led us to full-scale autonomous racing. The experience we gained here contributes greatly to our successful participation in the Abu Dhabi Autonomous Racing League. We therefore think it is important to share the system we used, providing a valuable starting point for other ambitious students. We provide a detailed description of the software pipeline we used, including a brief description of the hardware-software architecture. Furthermore, we introduce the methods that we developed for the modules that implement perception; localisation and mapping, planning, and control tasks.

arxiv情報

著者 Zalán Demeter,Levente Puskás,Balázs Kovács,Ádám Matkovics,Martin Nádas,Balázs Tuba,Zsolt Farkas,Ármin Bogár-Németh,Gergely Bári
発行日 2025-04-25 15:49:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | The Autonomous Software Stack of the FRED-003C: The Development That Led to Full-Scale Autonomous Racing はコメントを受け付けていません

A Taylor Series Approach to Correction of Input Errors in Gaussian Process Regression

要約

ガウスプロセス(GPS)は、回帰と分類のための強力なノンパラメトリックモデルとして広く認識されています。
従来のGPフレームワークは、入力が正確に既知であるか、ゼロ平均ノイズの影響を受けるという仮定の下で主に動作します。
ただし、モバイルセンサーなどのいくつかの実際のアプリケーションには不完全なローカリゼーションがあり、バイアスエラーのある入力につながります。
これらのバイアスは、通常、Kalmanフィルターを使用して、時間の経過とともに収集された測定を通じて推定できます。
トレーニングデータで使用されている入力のより良い推定値が利用可能になったら、GPモデル全体の再計算を回避するために、入力の更新された推定値を組み込むためにトレーニングされたGPモデルを更新する手法を導入します。
二乗指数カーネルから派生した平均および共分散関数の分化性を活用することにより、訓練されたGPモデルを更新するために2次補正アルゴリズムが開発されます。
事前に計算されたヤコビアンとヘシアンオブカーネルは、平均および共分散予測のリアルタイムの改良を可能にします。
開発されたアプローチの有効性は、2つのシミュレーション研究を使用して実証されており、エラー分析により、予測精度と不確実性の定量化の両方の改善が明らかになります。

要約(オリジナル)

Gaussian Processes (GPs) are widely recognized as powerful non-parametric models for regression and classification. Traditional GP frameworks predominantly operate under the assumption that the inputs are either accurately known or subject to zero-mean noise. However, several real-world applications such as mobile sensors have imperfect localization, leading to inputs with biased errors. These biases can typically be estimated through measurements collected over time using, for example, Kalman filters. To avoid recomputation of the entire GP model when better estimates of the inputs used in the training data become available, we introduce a technique for updating a trained GP model to incorporate updated estimates of the inputs. By leveraging the differentiability of the mean and covariance functions derived from the squared exponential kernel, a second-order correction algorithm is developed to update the trained GP models. Precomputed Jacobians and Hessians of kernels enable real-time refinement of the mean and covariance predictions. The efficacy of the developed approach is demonstrated using two simulation studies, with error analyses revealing improvements in both predictive accuracy and uncertainty quantification.

arxiv情報

著者 Muzaffar Qureshi,Tochukwu Elijah Ogri,Zachary I. Bell,Wanjiku A. Makumi,Rushikesh Kamalapurkar
発行日 2025-04-25 16:18:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | A Taylor Series Approach to Correction of Input Errors in Gaussian Process Regression はコメントを受け付けていません

Electrically-driven phase transition actuators to power soft robot designs

要約

電気駆動型のソフトアクチュエーターの探求において、焦点は、静電気やその他の電気作動方法を支持して、一般にひずみ速度と作動遅延に関連する液体GAS相転移から移行しました。
これにより、テクノロジーが独自の特性、特に低電圧動作、制御可能性、スケーラビリティ、ロボットへの統合の容易さを活用することができなくなりました。
ここでは、水を作動液として使用し、コイルタイプの柔軟な加熱要素を搭載した液体ガス相遷移電気ソフトアクチュエーターを導入します。
16%を超えるひずみ速度と100 kPa/sの加圧率を達成します。
最大24 Vの電圧で動作しながら50 Nを超えるブロックされた力が達成されました。私たちは、寄生的な振動と制御ラグの両方を減らす非線形制御アプローチとともに、アプリケーション固有の最適化を可能にする作業流体を選択する方法を提案します。
ケーブル駆動の生体模倣ハンドや、液体GAS相転移を搭載した4四つのロボットを含む、ソフトロボットシステムにこのテクノロジーの統合を実証します。

要約(オリジナル)

In the quest for electrically-driven soft actuators, the focus has shifted away from liquid-gas phase transition, commonly associated with reduced strain rates and actuation delays, in favour of electrostatic and other electrothermal actuation methods. This prevented the technology from capitalizing on its unique characteristics, particularly: low voltage operation, controllability, scalability, and ease of integration into robots. Here, we introduce a liquid-gas phase transition electric soft actuator that uses water as the working fluid and is powered by a coil-type flexible heating element. It achieves strain rates of over 16%/s and pressurization rates of 100 kPa/s. Blocked forces exceeding 50 N were achieved while operating at voltages up to 24 V. We propose a method for selecting working fluids which allows for application-specific optimization, together with a nonlinear control approach that reduces both parasitic vibrations and control lag. We demonstrate the integration of this technology in soft robotic systems, including a cable-driven biomimetic hand and a quadruped robot powered by liquid-gas phase transition.

arxiv情報

著者 Diogo Fonseca,Pedro Neto
発行日 2025-04-25 16:26:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Electrically-driven phase transition actuators to power soft robot designs はコメントを受け付けていません