$TAR^2$: Temporal-Agent Reward Redistribution for Optimal Policy Preservation in Multi-Agent Reinforcement Learning

要約

協力的なマルチエージェント補強学習(MARL)では、グローバルな報酬がまばらで遅れている場合、効果的なポリシーを学習することは困難です。
この困難は、エージェントとタイムステップの両方にクレジットを割り当てる必要性から生じます。これは、既存の方法がエピソードで長老のタスクで対処できないことが多い問題です。
一時的な報酬再分配$ tar^2 $を提案します。これは、エージェント固有のタイムステップ固有のコンポーネントにまばらなグローバルな報酬を分解する新しいアプローチを提案します。
理論的には、$ tar^2 $(i)が潜在的な報酬形状に合わせて、元の環境と同じ最適なポリシーを維持することを示し、(ii)元のスパース報酬の下にあるものと同一のポリシーグラデーションの更新方向を維持し、確実にします。
公平なクレジット信号。
2つの挑戦的なベンチマークであるSmacliteとGoogle Research Footballの経験的結果は、$ tar^2 $が収束を大幅に安定させ、加速し、学習速度と最終パフォーマンスの両方でArelやSTAのような強力なベースラインを上回ることを示しています。
これらの調査結果は、まばらな報酬マルチエージェントシステムにおけるエージェントと同時の信用割り当ての原則的かつ実用的なソリューションとして$ tar^2 $を確立します。

要約(オリジナル)

In cooperative multi-agent reinforcement learning (MARL), learning effective policies is challenging when global rewards are sparse and delayed. This difficulty arises from the need to assign credit across both agents and time steps, a problem that existing methods often fail to address in episodic, long-horizon tasks. We propose Temporal-Agent Reward Redistribution $TAR^2$, a novel approach that decomposes sparse global rewards into agent-specific, time-step-specific components, thereby providing more frequent and accurate feedback for policy learning. Theoretically, we show that $TAR^2$ (i) aligns with potential-based reward shaping, preserving the same optimal policies as the original environment, and (ii) maintains policy gradient update directions identical to those under the original sparse reward, ensuring unbiased credit signals. Empirical results on two challenging benchmarks, SMACLite and Google Research Football, demonstrate that $TAR^2$ significantly stabilizes and accelerates convergence, outperforming strong baselines like AREL and STAS in both learning speed and final performance. These findings establish $TAR^2$ as a principled and practical solution for agent-temporal credit assignment in sparse-reward multi-agent systems.

arxiv情報

著者 Aditya Kapoor,Kale-ab Tessera,Mayank Baranwal,Harshad Khadilkar,Stefano Albrecht,Mingfei Sun
発行日 2025-02-07 12:07:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO | $TAR^2$: Temporal-Agent Reward Redistribution for Optimal Policy Preservation in Multi-Agent Reinforcement Learning はコメントを受け付けていません

Training-free Task-oriented Grasp Generation

要約

このペーパーでは、事前に訓練された把握モデルとビジョン言語モデル(VLM)を組み合わせたタスク指向の把握生成のためのトレーニングフリーパイプラインを紹介します。
安定した握りのみに焦点を当てた従来のアプローチとは異なり、私たちの方法には、VLMSのセマンティック推論機能を活用することにより、タスク固有の要件が組み込まれています。
5つのクエリ戦略を評価し、それぞれが候補の握りの異なる視覚表現を利用し、成功とタスクコンプライアンス率の両方でベースライン方法よりも大幅な改善を示し、全体的な成功率が最大36.9%の絶対的な増加を示します。
私たちの結果は、タスク指向の操作を強化するVLMの可能性を強調し、ロボットグラッピングと人間とロボットの相互作用における将来の研究の洞察を提供します。

要約(オリジナル)

This paper presents a training-free pipeline for task-oriented grasp generation that combines pre-trained grasp generation models with vision-language models (VLMs). Unlike traditional approaches that focus solely on stable grasps, our method incorporates task-specific requirements by leveraging the semantic reasoning capabilities of VLMs. We evaluate five querying strategies, each utilizing different visual representations of candidate grasps, and demonstrate significant improvements over a baseline method in both grasp success and task compliance rates, with absolute gains of up to 36.9% in overall success rate. Our results underline the potential of VLMs to enhance task-oriented manipulation, providing insights for future research in robotic grasping and human-robot interaction.

arxiv情報

著者 Jiaming Wang,Jizhuo Chen,Diwen Liu
発行日 2025-02-07 12:26:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Training-free Task-oriented Grasp Generation はコメントを受け付けていません

The Role of Integrity Monitoring in Connected and Automated Vehicles: Current State-of-Practice and Future Directions

要約

コネクテッドおよび自動化された車両(CAV)の研究は、過去10年間で、知覚、ナビゲーション、コミュニケーション、および制御機能の大幅な進歩により、牽引力を獲得しました。
CAVアプリケーションの要件を満たすには、特に安全性がある場合は、正確で信頼できる位置情報が必要です。
さまざまな知覚センサー(カメラ、ライダーなど)の出現により、車両のポジショニングシステムの精度と堅牢性の両方が改善されました。
車両間車両(V2V)と車両間(V2I)ベースの協同組合ポジショニングは、位置推定の精度を改善できますが、協同環境でのマルチセンサー融合に関与する完全性のリスクはまだ完全には検討されていません。
このペーパーでは、整合性監視(IM)の配置分野での既存の研究をレビューし、さまざまな研究ギャップを特定します。
協力的なIM方法を強調する研究を特定することに特に注意が払われています。
この分析は、将来の協力的なポジショニングソリューションのための新しいIMフレームワークの開発への道を開くのに役立ちます。

要約(オリジナル)

Connected and Automated Vehicle (CAV) research has gained traction in the last decade due to significant advancements in perception, navigation, communication, and control functions. Accurate and reliable position information is needed to meet the requirements of CAV applications, especially when safety is concerned. With the advent of various perception sensors (e.g. camera, LiDAR, etc.), the vehicular positioning system has improved both in accuracy and robustness. Vehicle-to-Vehicle (V2V) and Vehicle-to-Infrastructure (V2I) based cooperative positioning can improve the accuracy of the position estimates, but the integrity risks involved in multi-sensor fusion in a cooperative environment have not yet been fully explored. This paper reviews existing research in the field of positioning Integrity Monitoring (IM) and identifies various research gaps. Particular attention has been placed on identifying research that highlights cooperative IM methods. This analysis helps pave the way for the development of new IM frameworks for cooperative positioning solutions in the future.

arxiv情報

著者 Saswat Priyadarshi Nayak,Matthew Barth
発行日 2025-02-07 12:27:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | The Role of Integrity Monitoring in Connected and Automated Vehicles: Current State-of-Practice and Future Directions はコメントを受け付けていません

Effective Sampling for Robot Motion Planning Through the Lens of Lattices

要約

(通常はランダムな)サンプリングを介してロボットの自由空間の構造をキャプチャするモーション計画のためのサンプリングベースの方法は、スケーラビリティ、シンプルさ、および確率的完全性や漸近最適性などのグローバルな保証を提供するために人気を獲得しました。
残念ながら、これらの保証の実用性は、有限数のサンプル(つまり、有限の実行時間)に対するモーションプランナーの動作に関する洞察を提供しないため、限られたままです。
この作業では、格子理論と$(\ delta、\ epsilon)$の概念を活用します – Tsao et al。
(2020)実行時間を最小限に抑えながら、プランナーに強い有限時間保証を与えた決定論的なサンプルセットを構築する。
特に、$ a_d^*$ latticeに基づいた高効率の決定的なサンプリングアプローチを導入します。
新しいサンプリングアプローチを使用して、複雑なモーションプランニング問題のための既存の決定論的で均一なランダムサンプリング方法よりも少なくとも秩序のスピードアップを取得します。
全体として、私たちの仕事は、サンプリングベースのモーション計画の実際的な適用性を進めながら、深い数学的洞察を提供します。

要約(オリジナル)

Sampling-based methods for motion planning, which capture the structure of the robot’s free space via (typically random) sampling, have gained popularity due to their scalability, simplicity, and for offering global guarantees, such as probabilistic completeness and asymptotic optimality. Unfortunately, the practicality of those guarantees remains limited as they do not provide insights into the behavior of motion planners for a finite number of samples (i.e., a finite running time). In this work, we harness lattice theory and the concept of $(\delta,\epsilon)$-completeness by Tsao et al. (2020) to construct deterministic sample sets that endow their planners with strong finite-time guarantees while minimizing running time. In particular, we introduce a highly-efficient deterministic sampling approach based on the $A_d^*$ lattice, which is the best-known geometric covering in dimensions $\leq 21$. Using our new sampling approach, we obtain at least an order-of-magnitude speedup over existing deterministic and uniform random sampling methods for complex motion-planning problems. Overall, our work provides deep mathematical insights while advancing the practical applicability of sampling-based motion planning.

arxiv情報

著者 Itai Panasoff,Kiril Solovey
発行日 2025-02-07 13:26:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.DM, cs.RO | Effective Sampling for Robot Motion Planning Through the Lens of Lattices はコメントを受け付けていません

Convergent NMPC-based Reinforcement Learning Using Deep Expected Sarsa and Nonlinear Temporal Difference Learning

要約

この論文では、NMPCスキームの最適な重みを学習するために、元の強化学習(RL)メソッドを使用して、学習ベースの非線形モデル予測コントローラー(NMPC)を提示します。
コントローラーは、通常二次NMPCで取得される後続のアクション値関数がニューラルネットワーク(NN)で近似される、予想される深いSARSAの現在のアクション値関数として使用されます。
既存のメソッドに関しては、NNの入力にNMPCの学習パラメーターの現在の値を追加して、ネットワークがアクション値関数を近似し、学習パフォーマンスを安定させることができます。
さらに、NNを使用すると、閉ループのパフォーマンスに影響を与えることなく、リアルタイムの計算負荷がほぼ半分になります。
さらに、関数近似に非線形性が存在する場合、潜在的なパラメーターの発散と不安定性の問題を克服するために、予想されるSARSA RL法の関数近似として、勾配の時間差法とパラメータ化されたNMPCを組み合わせます。
シミュレーション結果は、提案されたアプローチが不安定な問題のない局所的に最適なソリューションに収束することを示しています。

要約(オリジナル)

In this paper, we present a learning-based nonlinear model predictive controller (NMPC) using an original reinforcement learning (RL) method to learn the optimal weights of the NMPC scheme. The controller is used as the current action-value function of a deep Expected Sarsa where the subsequent action-value function, usually obtained with a secondary NMPC, is approximated with a neural network (NN). With respect to existing methods, we add to the NN’s input the current value of the NMPC’s learned parameters so that the network is able to approximate the action-value function and stabilize the learning performance. Additionally, with the use of the NN, the real-time computational burden is approximately halved without affecting the closed-loop performance. Furthermore, we combine gradient temporal difference methods with parametrized NMPC as function approximator of the Expected Sarsa RL method to overcome the potential parameters divergence and instability issues when nonlinearities are present in the function approximation. The simulation result shows that the proposed approach converges to a locally optimal solution without instability problems.

arxiv情報

著者 Amine Salaje,Thomas Chevet,Nicolas Langlois
発行日 2025-02-07 13:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Convergent NMPC-based Reinforcement Learning Using Deep Expected Sarsa and Nonlinear Temporal Difference Learning はコメントを受け付けていません

Kinematic-ICP: Enhancing LiDAR Odometry with Kinematic Constraints for Wheeled Mobile Robots Moving on Planar Surfaces

要約

Lidar odometryは、3Dマッピング、ナビゲーション、同時ローカリゼーションとマッピングなど、多くのロボットアプリケーションに不可欠です。
Lidar odometryシステムは通常、モバイルロボットのエゴモーションを計算するための何らかの形のポイントクラウド登録に基づいています。
しかし、ポイントクラウドのアラインメント中に、今日のLidar odometryシステムのほとんどは、ドメイン固有の知識またはモバイルプラットフォームの運動モデルを考慮しています。
このホワイトペーパーでは、3Dライダーを装備し、平面表面を装備した車輪付きモバイルロボットに焦点を当てたLidar odmetryシステムである運動学ICPを紹介します。これは、倉庫、オフィス、病院などの一般的な仮定です。
従来のポイントツーポイント反復的な最も近いポイントスキームの最適化内の制約。
このようにして、結果として生じる動きは、プラットフォームの運動学的制約に従い、ロボットのホイール臭気と3Dライダー観測を効果的に活用します。
最適化スキームにおけるLidar測定とホイール臭トメリトリーの影響を動的に調整し、システムが機能型の廊下などの縮退シナリオを処理できるようにします。
大規模な倉庫環境で動作するロボットに関するアプローチを評価しますが、屋外でも評価します。
この実験は、私たちのアプローチがトップパフォーマンスを達成し、ホイール臭トメトリーや一般的なLidar臭気システムよりも正確であることを示しています。
Kinematic-ICPは、最近、顧客のサイトで世界中の倉庫で動作するロボットのデキソリー艦隊に展開されており、完全なナビゲーションスタックとともにこの方法が現実の世界で実行できることを示しています。

要約(オリジナル)

LiDAR odometry is essential for many robotics applications, including 3D mapping, navigation, and simultaneous localization and mapping. LiDAR odometry systems are usually based on some form of point cloud registration to compute the ego-motion of a mobile robot. Yet, few of today’s LiDAR odometry systems consider domain-specific knowledge or the kinematic model of the mobile platform during the point cloud alignment. In this paper, we present Kinematic-ICP, a LiDAR odometry system that focuses on wheeled mobile robots equipped with a 3D LiDAR and moving on a planar surface, which is a common assumption for warehouses, offices, hospitals, etc. Our approach introduces kinematic constraints within the optimization of a traditional point-to-point iterative closest point scheme. In this way, the resulting motion follows the kinematic constraints of the platform, effectively exploiting the robot’s wheel odometry and the 3D LiDAR observations. We dynamically adjust the influence of LiDAR measurements and wheel odometry in our optimization scheme, allowing the system to handle degenerate scenarios such as feature-poor corridors. We evaluate our approach on robots operating in large-scale warehouse environments, but also outdoors. The experiments show that our approach achieves top performances and is more accurate than wheel odometry and common LiDAR odometry systems. Kinematic-ICP has been recently deployed in the Dexory fleet of robots operating in warehouses worldwide at their customers’ sites, showing that our method can run in the real world alongside a complete navigation stack.

arxiv情報

著者 Tiziano Guadagnino,Benedikt Mersch,Ignacio Vizzo,Saurabh Gupta,Meher V. R. Malladi,Luca Lobefaro,Guillaume Doisy,Cyrill Stachniss
発行日 2025-02-07 13:52:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Kinematic-ICP: Enhancing LiDAR Odometry with Kinematic Constraints for Wheeled Mobile Robots Moving on Planar Surfaces はコメントを受け付けていません

A Transformation-based Consistent Estimation Framework: Analysis, Design and Applications

要約

この論文では、マルチロボット協同組合のローカリゼーションや同時ローカリゼーションとマッピングなどの非線形システムで頻繁に発生する観測可能性の不一致から生じる矛盾の問題を調査します。
一般的な非線形システムの場合、EKF推定器システムの観察不可能な部分空間は状態とは無関係であり、元のシステムの観察不可能な部分空間に属していることを発見し、理論的に証明します。
これに基づいて、観察可能性のマッチングを達成するために必要かつ十分な条件を確立します。
これらの理論的発見は、状態に依存しない未観測不可能なサブスペースを有する変換されたシステムを実現するために、線形の時変変換を導入するように私たちを動機付けています。
そのような変換の存在を証明し、それらを構築するための2つの設計方法論を提案します。
さらに、それぞれT-EKF 1およびT-EKF 2と呼ばれる2つの同等の一貫した変換ベースのEKF推定器を提案します。
T-EKF 1は、一貫した推定のために変換されたシステムを使用しますが、T-EKF 2は元のシステムを活用しますが、変換からの状態および共分散補正を通じて一貫性を保証します。
提案された方法を検証するために、マルチロボット協同組合のローカリゼーション、マルチソースターゲット追跡、3D視覚慣性匂いなど、いくつかの代表的な例で実験を実施し、私たちのアプローチが最先端のパフォーマンスを達成することを実証します。
精度、一貫性、計算効率、および実用的な実現。

要約(オリジナル)

In this paper, we investigate the inconsistency problem arising from observability mismatch that frequently occurs in nonlinear systems such as multi-robot cooperative localization and simultaneous localization and mapping. For a general nonlinear system, we discover and theoretically prove that the unobservable subspace of the EKF estimator system is independent of the state and belongs to the unobservable subspace of the original system. On this basis, we establish the necessary and sufficient conditions for achieving observability matching. These theoretical findings motivate us to introduce a linear time-varying transformation to achieve a transformed system possessing a state-independent unobservable subspace. We prove the existence of such transformations and propose two design methodologies for constructing them. Moreover, we propose two equivalent consistent transformation-based EKF estimators, referred to as T-EKF 1 and T-EKF 2, respectively. T-EKF 1 employs the transformed system for consistent estimation, whereas T-EKF 2 leverages the original system but ensures consistency through state and covariance corrections from transformations. To validate our proposed methods, we conduct experiments on several representative examples, including multi-robot cooperative localization, multi-source target tracking, and 3D visual-inertial odometry, demonstrating that our approach achieves state-of-the-art performance in terms of accuracy, consistency, computational efficiency, and practical realizations.

arxiv情報

著者 Ning Hao,Chungeng Tian,Fenghua He
発行日 2025-02-07 15:28:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Transformation-based Consistent Estimation Framework: Analysis, Design and Applications はコメントを受け付けていません

Seasonal Station-Keeping of Short Duration High Altitude Balloons using Deep Reinforcement Learning

要約

関心のある地域におけるステーションキーピング短時間の高度の高地風船(HAB)は、部分的に観察可能で複雑な、動的な風が流れるため、挑戦的なパス計画の問題です。
ディープ補強学習は、ステーション維持の問題を解決するための一般的な戦略です。
カスタムシミュレーション環境は、シミュレーション内の短期間のHABエージェントのディープQラーニング(DQN)をトレーニングおよび評価するために開発されました。
エージェントを現実的な風で訓練するために、合成風の予測は、総歴史的ラジオゾンデデータから生成され、水平方向の運動学をシミュレートされた薬剤に適用しました。
合成予測は、ECWMF ERA5再分析予測と密接に相関しており、風力モデル間の現実的なシミュレートされた風場と季節的および高度分散を提供します。
その後、DQN HABのエージェントは、さまざまな季節の月にわたって訓練され、評価されました。
大幅に異なる風のフィールドで数か月の違いと傾向を強調するために、風力の多様性に基づいて予測を独立して分類するために予測スコアアルゴリズムが導入され、ステーション維持の成功と予測スコアの間の傾向がすべてのシーズンで評価されました。

要約(オリジナル)

Station-Keeping short-duration high-altitude balloons (HABs) in a region of interest is a challenging path-planning problem due to partially observable, complex, and dynamic wind flows. Deep reinforcement learning is a popular strategy for solving the station-keeping problem. A custom simulation environment was developed to train and evaluate Deep Q-Learning (DQN) for short-duration HAB agents in the simulation. To train the agents on realistic winds, synthetic wind forecasts were generated from aggregated historical radiosonde data to apply horizontal kinematics to simulated agents. The synthetic forecasts were closely correlated with ECWMF ERA5 Reanalysis forecasts, providing a realistic simulated wind field and seasonal and altitudinal variances between the wind models. DQN HAB agents were then trained and evaluated across different seasonal months. To highlight differences and trends in months with vastly different wind fields, a Forecast Score algorithm was introduced to independently classify forecasts based on wind diversity, and trends between station-keeping success and the Forecast Score were evaluated across all seasons.

arxiv情報

著者 Tristan K. Schuler,Chinthan Prasad,Georgiy Kiselev,Donald Sofge
発行日 2025-02-07 15:42:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, physics.ao-ph | Seasonal Station-Keeping of Short Duration High Altitude Balloons using Deep Reinforcement Learning はコメントを受け付けていません

Gaze-Guided Robotic Vascular Ultrasound Leveraging Human Intention Estimation

要約

医療超音波は、現代の臨床診療における血管構造を調べるために広く使用されています。
ただし、従来の超音波検査は、多くの場合、術中および術中の変動に関連する課題に直面しています。
ロボット超音波システム(RUSS)は、安定性と再現性に優れているため、このような課題に対する潜在的なソリューションとして表示されます。
人間の血管系の複雑な解剖学を考えると、複数の血管が超音波画像に表示されることがよくあるか、単一の容器が枝に分岐し、検査プロセスを複雑にします。
この課題に取り組むために、この作品は血管用途向けの視線誘導RUSSを提示します。
視線トラッカーは、オペレーターの目の動きをキャプチャします。
抽出された視線信号は、Russが分岐するときに正しい容器に従うように導きます。
さらに、注視情報を活用することにより、セグメンテーションの堅牢性を高めるために、視線誘導セグメンテーションネットワークが提案されています。
ただし、視線信号はしばしばノイズが多く、オペレーターの真の意図を正確に識別するための解釈が必要です。
この目的のために、この研究では、生の視線データを処理する安定化モジュールを提案しています。
推定された注意ヒートマップは、分岐が表示されるときなど、オペレーターがスキャンターゲットを調整する必要がある場合、セグメンテーションを支援し、トリガー信号として機能する地域の提案として利用されます。
スキャン中にプローブと表面間の適切な接触を確保するために、自動超音波信頼ベースの方向補正方法が開発されています。
実験では、提案された視線誘導セグメンテーションパイプラインの効率を他の方法と比較することにより実証しました。
その上、提案された視線誘導RUSSのパフォーマンスは、不均一な表面を持つ現実的な腕の幻に関する全体としても検証されました。

要約(オリジナル)

Medical ultrasound has been widely used to examine vascular structure in modern clinical practice. However, traditional ultrasound examination often faces challenges related to inter- and intra-operator variation. The robotic ultrasound system (RUSS) appears as a potential solution for such challenges because of its superiority in stability and reproducibility. Given the complex anatomy of human vasculature, multiple vessels often appear in ultrasound images, or a single vessel bifurcates into branches, complicating the examination process. To tackle this challenge, this work presents a gaze-guided RUSS for vascular applications. A gaze tracker captures the eye movements of the operator. The extracted gaze signal guides the RUSS to follow the correct vessel when it bifurcates. Additionally, a gaze-guided segmentation network is proposed to enhance segmentation robustness by exploiting gaze information. However, gaze signals are often noisy, requiring interpretation to accurately discern the operator’s true intentions. To this end, this study proposes a stabilization module to process raw gaze data. The inferred attention heatmap is utilized as a region proposal to aid segmentation and serve as a trigger signal when the operator needs to adjust the scanning target, such as when a bifurcation appears. To ensure appropriate contact between the probe and surface during scanning, an automatic ultrasound confidence-based orientation correction method is developed. In experiments, we demonstrated the efficiency of the proposed gaze-guided segmentation pipeline by comparing it with other methods. Besides, the performance of the proposed gaze-guided RUSS was also validated as a whole on a realistic arm phantom with an uneven surface.

arxiv情報

著者 Yuan Bi,Yang Su,Nassir Navab,Zhongliang Jiang
発行日 2025-02-07 16:20:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Gaze-Guided Robotic Vascular Ultrasound Leveraging Human Intention Estimation はコメントを受け付けていません

GCBF+: A Neural Graph Control Barrier Function Framework for Distributed Safe Multi-Agent Control

要約

大規模なマルチエージェントシステムの分散、スケーラブル、安全な制御は、困難な問題です。
このホワイトペーパーでは、障害物を備えた大規模な環境で安全なマルチエージェント制御のための分散フレームワークを設計します。そこでは、ローカル情報のみを使用して安全を維持し、目標の場所に到達するために多数のエージェントが必要です。
安全保証のために確立された制御障壁機能理論に基づいたグラフ制御バリア関数(GCBF)と呼ばれる新しいクラスの証明書を導入し、MASのスケーラブルで一般化可能な分散制御のためのグラフ構造を利用します。
単一のGCBFを使用した任意のサイズのMASの安全性を証明するために、新しい理論的枠組みを開発します。
グラフニューラルネットワークを使用して候補GCBFと分散制御ポリシーをパラメーター化する新しいトレーニングフレームワークGCBF+を提案します。
提案されたフレームワークは配布されており、実際のロボットアプリケーションのために、実際の状態情報の代わりにLidarからポイントクラウドを取得することができます。
ドローンの群れでのさまざまなハードウェア実験を通じて、衝突せずに位置を交換することから移動ターゲットのドッキングに至るまでの目的を持つさまざまなハードウェア実験を通じて、提案された方法の有効性を説明します。
さらに、エージェントの数と密度、および障害物の数が増加する広範な数値実験を実行します。
経験的結果は、非線形ダイナミクスを持つエージェント(クレイジーフリードローンなど)を備えた複雑な環境では、GCBF+が256のエージェントを持つ比較的小規模なMASで最高のパフォーマンスを持つ手作りのCBFベースの方法を最大20%上回ることを示しています。
1024エージェントのMASで最大40%の主要な強化学習(RL)方法。
さらに、提案された方法は、RLベースの方法で一般的なトレードオフである高い安全率を達成するために、目標到達の観点からパフォーマンスを妥協しません。

要約(オリジナル)

Distributed, scalable, and safe control of large-scale multi-agent systems is a challenging problem. In this paper, we design a distributed framework for safe multi-agent control in large-scale environments with obstacles, where a large number of agents are required to maintain safety using only local information and reach their goal locations. We introduce a new class of certificates, termed graph control barrier function (GCBF), which are based on the well-established control barrier function theory for safety guarantees and utilize a graph structure for scalable and generalizable distributed control of MAS. We develop a novel theoretical framework to prove the safety of an arbitrary-sized MAS with a single GCBF. We propose a new training framework GCBF+ that uses graph neural networks to parameterize a candidate GCBF and a distributed control policy. The proposed framework is distributed and is capable of taking point clouds from LiDAR, instead of actual state information, for real-world robotic applications. We illustrate the efficacy of the proposed method through various hardware experiments on a swarm of drones with objectives ranging from exchanging positions to docking on a moving target without collision. Additionally, we perform extensive numerical experiments, where the number and density of agents, as well as the number of obstacles, increase. Empirical results show that in complex environments with agents with nonlinear dynamics (e.g., Crazyflie drones), GCBF+ outperforms the hand-crafted CBF-based method with the best performance by up to 20% for relatively small-scale MAS with up to 256 agents, and leading reinforcement learning (RL) methods by up to 40% for MAS with 1024 agents. Furthermore, the proposed method does not compromise on the performance, in terms of goal reaching, for achieving high safety rates, which is a common trade-off in RL-based methods.

arxiv情報

著者 Songyuan Zhang,Oswin So,Kunal Garg,Chuchu Fan
発行日 2025-02-07 16:34:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.OC | GCBF+: A Neural Graph Control Barrier Function Framework for Distributed Safe Multi-Agent Control はコメントを受け付けていません