Fast and Robust Localization for Humanoid Soccer Robot via Iterative Landmark Matching

要約

正確なロボットのローカリゼーションは、効果的な操作に不可欠です。
モンテカルロローカリゼーション(MCL)は、一般的に既知のマップで使用されますが、各粒子のランドマークマッチングにより計算高価です。
ヒューマノイドロボットは、運動振動によるセンサーノイズや、カメラの配置による限られた視野(FOV)などの追加の課題に直面しています。
このペーパーでは、ヒューマノイドロボットの反復ランドマークマッチング(ILM)を介して高速で堅牢なローカリゼーション方法を提案します。
反復マッチングプロセスは、ランドマーク協会の精度を改善して、ランドマークを粒子に一致させるためにMCLを必要としないようにします。
外れ値の除去プロセスを使用して推定されると、測定ノイズと故障した検出に対する堅牢性が向上します。
さらに、追加のフィルターを使用して、慣性測定ユニット(IMU)から慣性データを融合し、ローカリゼーションからデータを提起できます。
ILMを反復的な最も近いポイント(ICP)と比較しました。これは、ILMメソッドが最初の推測のエラーに対してより堅牢であり、正しいマッチングを取得するのが簡単であることを示しています。
また、ILMを拡張モンテカルロ局在(AMCL)と比較しました。これは、ILMメソッドがAMCLよりもはるかに速く、さらに正確であることを示しています。
提案された方法の有効性は、実験を通じて徹底的に評価され、Robocup 2024アダルトサイズのサッカー競技中にヒューマノイドロボットArtemisで検証されます。

要約(オリジナル)

Accurate robot localization is essential for effective operation. Monte Carlo Localization (MCL) is commonly used with known maps but is computationally expensive due to landmark matching for each particle. Humanoid robots face additional challenges, including sensor noise from locomotion vibrations and a limited field of view (FOV) due to camera placement. This paper proposes a fast and robust localization method via iterative landmark matching (ILM) for humanoid robots. The iterative matching process improves the accuracy of the landmark association so that it does not need MCL to match landmarks to particles. Pose estimation with the outlier removal process enhances its robustness to measurement noise and faulty detections. Furthermore, an additional filter can be utilized to fuse inertial data from the inertial measurement unit (IMU) and pose data from localization. We compared ILM with Iterative Closest Point (ICP), which shows that ILM method is more robust towards the error in the initial guess and easier to get a correct matching. We also compared ILM with the Augmented Monte Carlo Localization (aMCL), which shows that ILM method is much faster than aMCL and even more accurate. The proposed method’s effectiveness is thoroughly evaluated through experiments and validated on the humanoid robot ARTEMIS during RoboCup 2024 adult-sized soccer competition.

arxiv情報

著者 Ruochen Hou,Mingzhang Zhu,Hyunwoo Nam,Gabriel I. Fernandez,Dennis W. Hong
発行日 2025-05-16 04:11:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Fast and Robust Localization for Humanoid Soccer Robot via Iterative Landmark Matching はコメントを受け付けていません

Robust 2D lidar-based SLAM in arboreal environments without IMU/GNSS

要約

モバイルロボットの同時ローカリゼーションとマッピング(SLAM)アプローチは、森のキャノピーがグローバルナビゲーション衛星システム(GNSS)シグナルを妨害する森林または樹木の果実農業環境で困難なままです。
屋内の設定とは異なり、これらの農業環境には、葉の動きや照明の変動などの屋外変数のために追加の課題があります。
このホワイトペーパーでは、3D LIDARを使用するアプローチよりも、処理と保存が必要であり、費用対効果が高い2D Lidar測定に基づくソリューションを提案します。
修正されたHausdorff距離(MHD)メトリックを利用すると、この方法は、洗練された機能抽出を必要とせずに、スキャンを堅牢で高精度で解決できます。
この方法の堅牢性は、パブリックデータセットを使用して検証され、さまざまなメトリックを検討し、将来の研究の有意義な比較を促進しました。
最先端のアルゴリズム、特にA-Loamとの比較評価は、提案されたアプローチがGNSSが除外された設定でより高い精度と回復力を維持しながら、より低い位置および角度エラーを達成することを示しています。
この作業は、困難な屋外環境で信頼できる自律的なナビゲーションを可能にすることにより、精密農業の進歩に貢献します。

要約(オリジナル)

Simultaneous localization and mapping (SLAM) approaches for mobile robots remains challenging in forest or arboreal fruit farming environments, where tree canopies obstruct Global Navigation Satellite Systems (GNSS) signals. Unlike indoor settings, these agricultural environments possess additional challenges due to outdoor variables such as foliage motion and illumination variability. This paper proposes a solution based on 2D lidar measurements, which requires less processing and storage, and is more cost-effective, than approaches that employ 3D lidars. Utilizing the modified Hausdorff distance (MHD) metric, the method can solve the scan matching robustly and with high accuracy without needing sophisticated feature extraction. The method’s robustness was validated using public datasets and considering various metrics, facilitating meaningful comparisons for future research. Comparative evaluations against state-of-the-art algorithms, particularly A-LOAM, show that the proposed approach achieves lower positional and angular errors while maintaining higher accuracy and resilience in GNSS-denied settings. This work contributes to the advancement of precision agriculture by enabling reliable and autonomous navigation in challenging outdoor environments.

arxiv情報

著者 Paola Nazate-Burgos,Miguel Torres-Torriti,Sergio Aguilera-Marinovic,Tito Arévalo,Shoudong Huang,Fernando Auat Cheein
発行日 2025-05-16 04:39:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Robust 2D lidar-based SLAM in arboreal environments without IMU/GNSS はコメントを受け付けていません

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

要約

ロボットタスク計画は、ロボットが一連の複雑なタスクを完了できるようにする実行可能なアクションシーケンスに人間の命令を分解します。
最近の大規模な言語モデル(LLM)ベースのタスクプランナーは驚くべきパフォーマンスを達成していますが、人間の指示は明確で簡単であると仮定しています。
ただし、実際のユーザーは専門家ではなく、ロボットへの指示には多くの場合、かなりのあいまいさが含まれています。
言語学者は、そのようなあいまいさは、対話の文脈と環境に大きく依存する表現(res)を参照することから頻繁に生じることを示唆しています。
このあいまいさは、ロボットがもっとサービスを提供すべき高齢者と子供の間でさらに一般的です。
このペーパーでは、人間の指示内のRESのこのようなあいまいさが、LLMベースのロボットタスク計画にどのように影響し、この問題を克服する方法を研究しています。
この目的のために、漠然としたRES(REI-Bench)を使用した最初のロボットタスク計画ベンチマークを提案します。ここでは、RESのあいまいさがロボット計画のパフォーマンスを大幅に分解できることがわかり、成功率は最大77.9%になります。
また、ほとんどの障害ケースは、プランナーに欠落しているオブジェクトに起因することを観察します。
RESの問題を軽減するために、単純で効果的なアプローチ、タスク指向のコンテキスト認知を提案します。タスク指向のコンテキスト認知は、ロボットの明確な指示を生成し、迅速で思考のチェーンと比較して最先端のパフォーマンスを実現します。
この作業は、特に非専門家のユーザー、たとえば高齢者や子供向けに、ロボットタスク計画をより実用的にすることにより、人間とロボットの相互作用(HRI)の研究コミュニティに貢献しています。

要約(オリジナル)

Robot task planning decomposes human instructions into executable action sequences that enable robots to complete a series of complex tasks. Although recent large language model (LLM)-based task planners achieve amazing performance, they assume that human instructions are clear and straightforward. However, real-world users are not experts, and their instructions to robots often contain significant vagueness. Linguists suggest that such vagueness frequently arises from referring expressions (REs), whose meanings depend heavily on dialogue context and environment. This vagueness is even more prevalent among the elderly and children, who robots should serve more. This paper studies how such vagueness in REs within human instructions affects LLM-based robot task planning and how to overcome this issue. To this end, we propose the first robot task planning benchmark with vague REs (REI-Bench), where we discover that the vagueness of REs can severely degrade robot planning performance, leading to success rate drops of up to 77.9%. We also observe that most failure cases stem from missing objects in planners. To mitigate the REs issue, we propose a simple yet effective approach: task-oriented context cognition, which generates clear instructions for robots, achieving state-of-the-art performance compared to aware prompt and chains of thought. This work contributes to the research community of human-robot interaction (HRI) by making robot task planning more practical, particularly for non-expert users, e.g., the elderly and children.

arxiv情報

著者 Chenxi Jiang,Chuhao Zhou,Jianfei Yang
発行日 2025-05-16 05:27:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO | REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning? はコメントを受け付けていません

Estimating Deformable-Rigid Contact Interactions for a Deformable Tool via Learning and Model-Based Optimization

要約

器用な操作には、外因性の接触に対する慎重な推論が必要です。
人間の環境での変形ツールの有病率、変形可能なセンサーの使用、およびソフトロボットの数の増加は、すべての接触が古典的な剛体の接触モデルによって適切に特徴付けられているわけではない場合、接触推論を通じて器用な操作を可能にするアプローチの必要性をもたらします。
ここでは、剛性オブジェクトを巧みに操作する変形ツールの場合を検討します。
同時運動のモデリングとツールとオブジェクトの力の移動のモデリングに対するハイブリッド学習および第一原理的アプローチを提案します。
学習モジュールは、剛性オブジェクトの動きと変形可能なツールの付与された接触力を共同で推定する責任があります。
次に、準静的平衡とクーロン摩擦の対象となる環境とオブジェクトの間の力を回復するための接触第四段所プログラムを提案します。
結果は、巧妙な変形可能な操作中に、固有の動き、接触、および力の両方をモデル化できるシステムです。
私たちはシミュレーションで私たちの方法を訓練し、私たちの方法が、操作のプッシュとピボット中に、さまざまなブロック形状と物理的特性の下でベースラインを上回ることを示し、現実世界の相互作用への転送を示します。
ビデオの結果は、https://deform-rigid-contact.github.io/にあります。

要約(オリジナル)

Dexterous manipulation requires careful reasoning over extrinsic contacts. The prevalence of deforming tools in human environments, the use of deformable sensors, and the increasing number of soft robots yields a need for approaches that enable dexterous manipulation through contact reasoning where not all contacts are well characterized by classical rigid body contact models. Here, we consider the case of a deforming tool dexterously manipulating a rigid object. We propose a hybrid learning and first-principles approach to the modeling of simultaneous motion and force transfer of tools and objects. The learned module is responsible for jointly estimating the rigid object’s motion and the deformable tool’s imparted contact forces. We then propose a Contact Quadratic Program to recover forces between the environment and object subject to quasi-static equilibrium and Coulomb friction. The results is a system capable of modeling both intrinsic and extrinsic motions, contacts, and forces during dexterous deformable manipulation. We train our method in simulation and show that our method outperforms baselines under varying block geometries and physical properties, during pushing and pivoting manipulations, and demonstrate transfer to real world interactions. Video results can be found at https://deform-rigid-contact.github.io/.

arxiv情報

著者 Mark Van der Merwe,Miquel Oller,Dmitry Berenson,Nima Fazeli
発行日 2025-05-16 05:42:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Estimating Deformable-Rigid Contact Interactions for a Deformable Tool via Learning and Model-Based Optimization はコメントを受け付けていません

ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations

要約

Rewindを紹介します。これは、タスクごとのデモンストレーションなしの言語指示からのみロボット操作タスクを学習するためのフレームワークを紹介します。
標準強化学習(RL)および模倣学習方法では、すべての新しいタスクの人間が設計した報酬機能またはデモンストレーションを通じて専門家の監督が必要です。
対照的に、巻き戻しは小さなデモデータセットから始まり、次のことを学習します。
目に見えないタスクのバリエーションを考えると、学習された報酬関数を使用して事前に訓練されたポリシーを微調整し、最小限のオンラインインタラクションを必要とします。
Rewindの報酬モデルは、目に見えないタスクに効果的に一般化し、報酬の一般化とポリシーの調整メトリックで最大2.4倍のベースラインを上回ることを示します。
最後に、巻き戻しが新しいタスクへのサンプル効率の高い適応を可能にし、シミュレーションで2倍のベースラインを破り、実世界の前提条件の二近政策を5倍改善することを実証し、スケーラブルな実世界のロボット学習に向けて一歩を踏み出しました。
https://rewind-reward.github.io/のウェブサイトを参照してください。

要約(オリジナル)

We introduce ReWiND, a framework for learning robot manipulation tasks solely from language instructions without per-task demonstrations. Standard reinforcement learning (RL) and imitation learning methods require expert supervision through human-designed reward functions or demonstrations for every new task. In contrast, ReWiND starts from a small demonstration dataset to learn: (1) a data-efficient, language-conditioned reward function that labels the dataset with rewards, and (2) a language-conditioned policy pre-trained with offline RL using these rewards. Given an unseen task variation, ReWiND fine-tunes the pre-trained policy using the learned reward function, requiring minimal online interaction. We show that ReWiND’s reward model generalizes effectively to unseen tasks, outperforming baselines by up to 2.4x in reward generalization and policy alignment metrics. Finally, we demonstrate that ReWiND enables sample-efficient adaptation to new tasks, beating baselines by 2x in simulation and improving real-world pretrained bimanual policies by 5x, taking a step towards scalable, real-world robot learning. See website at https://rewind-reward.github.io/.

arxiv情報

著者 Jiahui Zhang,Yusen Luo,Abrar Anwar,Sumedh Anand Sontakke,Joseph J Lim,Jesse Thomason,Erdem Biyik,Jesse Zhang
発行日 2025-05-16 06:31:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations はコメントを受け付けていません

Unleashing Humanoid Reaching Potential via Real-world-Ready Skill Space

要約

人間は3Dの世界に大きな到達可能な空間を持ち、さまざまな高さと距離でオブジェクトとの相互作用を可能にします。
ただし、ヒューマノイドに到達するこのような大きなスペースを認識することは、複雑な全身制御の問題であり、ロボットが基本的なポジショニングと再配向、身長と身体姿勢の調整、およびエンドエフェクターのポーズコントロールを含む多様なスキルを同時に習得する必要があります。
ゼロから学ぶことは、多くの場合、最適化の難易度とSIM2realの移動性が低いことにつながります。
この課題に対処するために、実際の準備ができたスキルスペース(R2S2)を提案します。
私たちのアプローチは、現実世界の準備ができたプリミティブスキルで構成される慎重に設計されたスキルライブラリから始まります。
個々のスキルチューニングとSIM2real評価を通じて、最適なパフォーマンスと堅牢なSIM2real転送を確保します。
これらのスキルは、統一された潜在スペースに組み込まれ、効率的かつSIM2real転送可能な方法でタスクの実行を支援する構造化された事前として機能します。
このスペースのスキルをサンプリングするように訓練されたハイレベルのプランナーにより、ロボットは実際の目標を達成するタスクを達成できます。
ゼロショットSIM2REAL転送を示し、複数の挑戦的な目標到達シナリオでR2S2を検証します。

要約(オリジナル)

Humans possess a large reachable space in the 3D world, enabling interaction with objects at varying heights and distances. However, realizing such large-space reaching on humanoids is a complex whole-body control problem and requires the robot to master diverse skills simultaneously-including base positioning and reorientation, height and body posture adjustments, and end-effector pose control. Learning from scratch often leads to optimization difficulty and poor sim2real transferability. To address this challenge, we propose Real-world-Ready Skill Space (R2S2). Our approach begins with a carefully designed skill library consisting of real-world-ready primitive skills. We ensure optimal performance and robust sim2real transfer through individual skill tuning and sim2real evaluation. These skills are then ensembled into a unified latent space, serving as a structured prior that helps task execution in an efficient and sim2real transferable manner. A high-level planner, trained to sample skills from this space, enables the robot to accomplish real-world goal-reaching tasks. We demonstrate zero-shot sim2real transfer and validate R2S2 in multiple challenging goal-reaching scenarios.

arxiv情報

著者 Zhikai Zhang,Chao Chen,Han Xue,Jilong Wang,Sikai Liang,Yun Liu,Zongzhang Zhang,He Wang,Li Yi
発行日 2025-05-16 06:44:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Unleashing Humanoid Reaching Potential via Real-world-Ready Skill Space はコメントを受け付けていません

GrowSplat: Constructing Temporal Digital Twins of Plants with Gaussian Splats

要約

植物の成長の正確な時間的再構成は、植物の表現型と繁殖には不可欠ですが、植物の複雑な幾何学、閉塞、非剛性の変形のために困難なままです。
3Dガウスのスプラッティングと堅牢なサンプルアライメントパイプラインを組み合わせることにより、植物の一時的なデジタルツインを構築するための新しいフレームワークを提示します。
私たちの方法は、マルチビューカメラデータからガウススプラットを再構築し、2段階の登録アプローチを活用することから始まります。機能ベースのマッチングと高速グローバル登録を介した粗いアラインメント、続いて反復的な最近のポイントとの微細なアライメントです。
このパイプラインは、個別のタイムステップで植物開発の一貫した4Dモデルを生成します。
オランダプラントエコ表現型センターのデータに関するアプローチを評価し、セコイア種とキノア種の詳細な時間的再構成を実証します。
ビデオと画像はhttps://berkeleyautomation.github.io/growsplat/で見ることができます

要約(オリジナル)

Accurate temporal reconstructions of plant growth are essential for plant phenotyping and breeding, yet remain challenging due to complex geometries, occlusions, and non-rigid deformations of plants. We present a novel framework for building temporal digital twins of plants by combining 3D Gaussian Splatting with a robust sample alignment pipeline. Our method begins by reconstructing Gaussian Splats from multi-view camera data, then leverages a two-stage registration approach: coarse alignment through feature-based matching and Fast Global Registration, followed by fine alignment with Iterative Closest Point. This pipeline yields a consistent 4D model of plant development in discrete time steps. We evaluate the approach on data from the Netherlands Plant Eco-phenotyping Center, demonstrating detailed temporal reconstructions of Sequoia and Quinoa species. Videos and Images can be seen at https://berkeleyautomation.github.io/GrowSplat/

arxiv情報

著者 Simeon Adebola,Shuangyu Xie,Chung Min Kim,Justin Kerr,Bart M. van Marrewijk,Mieke van Vlaardingen,Tim van Daalen,Robert van Loo,Jose Luis Susa Rincon,Eugen Solowjow,Rick van de Zedde,Ken Goldberg
発行日 2025-05-16 06:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | GrowSplat: Constructing Temporal Digital Twins of Plants with Gaussian Splats はコメントを受け付けていません

Demonstrating a Control Framework for Physical Human-Robot Interaction Toward Industrial Applications

要約

物理的なヒトとロボットの相互作用(PHRI)は、人間中心のアプローチに焦点を当てた業界5.0を実装するために重要です。
ただし、PHRIの産業用グレードのパフォーマンスへの実際的な整合性を調査する研究はほとんどありません。
このペーパーでは、トルクベースの制御モード、コンプライアンス制御、ヌル空間コンプライアンス、およびデュアルコンプライアンスをすべて静的および動的なシナリオに組み込むことにより、このギャップを埋めるために設計された汎用性のある制御フレームワークを紹介します。
2次二次プログラミング(QP)の定式化のおかげで、厳格な運動学と衝突の制約が安全機能としてシステムに統合され、加重階層は単一性 – ロビータスク追跡パフォーマンスを保証します。
このフレームワークは、ボタフォース/トルクセンサーを備えたKinova Gen3共同ロボット(コボット)に実装されています。
デュアルショック4ゲームコントローラーがロボットのエンドエフェクターに接続されており、フレームワークの機能を実証します。
このセットアップにより、モード間のシームレスな動的スイッチング、および位置制御とトルクコントロールの間の遷移や、デフォルトのより堅牢なカスタム開発の低レベルトルクコントローラーの選択など、パラメーターのリアルタイム調整が可能になります。
オープンソースのロボット制御ソフトウェアMC_RTCに基づいて構築されたこのフレームワークは、研究と産業の両方の展開の両方の再現性を保証します。このフレームワークは、産業グレードのパフォーマンスと再現性への一歩を示しており、産業環境の堅牢なPhri制御システムとしての可能性を示しています。

要約(オリジナル)

Physical Human-Robot Interaction (pHRI) is critical for implementing Industry 5.0, which focuses on human-centric approaches. However, few studies explore the practical alignment of pHRI to industrial-grade performance. This paper introduces a versatile control framework designed to bridge this gap by incorporating the torque-based control modes: compliance control, null-space compliance, and dual compliance, all in static and dynamic scenarios. Thanks to our second-order Quadratic Programming (QP) formulation, strict kinematic and collision constraints are integrated into the system as safety features, and a weighted hierarchy guarantees singularity-robust task tracking performance. The framework is implemented on a Kinova Gen3 collaborative robot (cobot) equipped with a Bota force/torque sensor. A DualShock 4 game controller is attached to the robot’s end-effector to demonstrate the framework’s capabilities. This setup enables seamless dynamic switching between the modes, and real-time adjustments of parameters, such as transitioning between position and torque control or selecting a more robust custom-developed low-level torque controller over the default one. Built on the open-source robotic control software mc_rtc, our framework ensures reproducibility for both research and industrial deployment, this framework demonstrates a step toward industrial-grade performance and repeatability, showcasing its potential as a robust pHRI control system for industrial environments.

arxiv情報

著者 Bastien Muraccioli,Mathieu Celerier,Mehdi Benallegue,Gentiane Venture
発行日 2025-05-16 07:17:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Demonstrating a Control Framework for Physical Human-Robot Interaction Toward Industrial Applications はコメントを受け付けていません

FALCON: Fast Autonomous Aerial Exploration using Coverage Path Guidance

要約

このペーパーでは、自律航空探査の分野で新しいパフォーマンスベンチマークを設定することを目的としたカバレッジパスガイダンスを使用して、新しい高速自律探査フレームワークであるFalconを紹介します。
ドメインでの最近の進歩にもかかわらず、既存の探査プランナーはしばしば、以前に調査された地域の頻繁な再検討などの非効率性に苦しむことがよくあります。ファルコンは、探査効率を高めるためのオンライン生成カバレッジパスの最大限の可能性を効果的に活用します。
グローバルガイダンスとして機能する未開拓のスペース全体にまたがるカバレッジパス。その後、ローカルプランナーはフロンティアの訪問順序を最適化し、トラバーサル時間を最小限に抑えながら、グローバルなガイダンスの意図を意識的に組み込みます。
同一の四肢装置シミュレーターを使用したさまざまなテストシナリオの探査プランナー。アドディションでは、客観的基準に基づいて最先端の探索プランナーの重要なパフォーマンスの利点を強調するために、詳細な分析と評価が実施されます。
複雑で挑戦的な環境での能力。探査計画者ファルコンと探査計画者評価環境の両方のソースコードがリリースされ、コミュニティに利益をもたらしました。

要約(オリジナル)

This paper introduces FALCON, a novel Fast Autonomous expLoration framework using COverage path guidaNce, which aims at setting a new performance benchmark in the field of autonomous aerial exploration. Despite recent advancements in the domain, existing exploration planners often suffer from inefficiencies such as frequent revisitations of previously explored regions.FALCON effectively harnesses the full potential of online generated coverage paths in enhancing exploration efficiency.The framework begins with an incremental connectivity-aware space decomposition and connectivity graph construction, which facilitate efficient coverage path planning.Subsequently, a hierarchical planner generates a coverage path spanning the entire unexplored space, serving as a global guidance.Then, a local planner optimizes the frontier visitation order, minimizing traversal time while consciously incorporating the intention of the global guidance.Finally, minimum-time smooth and safe trajectories are produced to visit the frontier viewpoints.For fair and comprehensive benchmark experiments, we introduce a lightweight exploration planner evaluation environment that allows for comparing exploration planners across a variety of testing scenarios using an identical quadrotor simulator.Additionally, an in-depth analysis and evaluation is conducted to highlight the significant performance advantages of FALCON in comparison with the state-of-the-art exploration planners based on objective criteria.Extensive ablation studies demonstrate the effectiveness of each component in the proposed framework.Real-world experiments conducted fully onboard further validate FALCON’s practical capability in complex and challenging environments.The source code of both the exploration planner FALCON and the exploration planner evaluation environment has been released to benefit the community.

arxiv情報

著者 Yichen Zhang,Xinyi Chen,Chen Feng,Boyu Zhou,Shaojie Shen
発行日 2025-05-16 07:20:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | FALCON: Fast Autonomous Aerial Exploration using Coverage Path Guidance はコメントを受け付けていません

Certifying Stability of Reinforcement Learning Policies using Generalized Lyapunov Functions

要約

最適な制御または補強学習(RL)から派生した制御ポリシーの下で、閉ループシステムの安定性を証明する問題を研究します。
古典的なリアプノフ法では、リアプノフ関数の厳密な段階的な減少が必要ですが、このような証明書は、学習制御ポリシーのために構築するのが困難です。
RLポリシーに関連付けられている値関数は、自然なリアプノフ関数候補ですが、どのように変更する必要があるかは明確ではありません。
直感を得るために、まず線形二次調節因子(LQR)問題を研究し、2つの重要な観察を行います。
まず、Lyapunov関数は、システムのダイナミクスとステージコストに関連する残差用語でそれを増強することにより、LQRポリシーの値関数から取得できます。
第二に、古典的なリアプノフの減少要件は、一般化されたリアプノフ状態に緩和される可能性があり、複数の時間ステップで平均して平均して減少する必要があります。
この直感を使用して、非線形設定を検討し、ニューラルネットワーク残差項でRL値関数を増強することにより、一般化されたリアプノフ関数を学習するアプローチを策定します。
私たちのアプローチは、体育館とディープマインドコントロールベンチマークで訓練されたRLポリシーの安定性を正常に証明しています。
また、マルチステップのリアプノフ損失を使用して、ニューラルコントローラーと安定性証明書を共同でトレーニングする方法を拡張し、クラシックリアプノフアプローチと比較して、引力領域のより大きな認定内側近似をもたらします。
全体として、当社の定式化により、証明書を構築しやすくし、それにより古典的な制御理論と最新の学習ベースの方法を橋渡しすることにより、学習ポリシーを備えた幅広いクラスのシステムの安定性認証が可能になります。

要約(オリジナル)

We study the problem of certifying the stability of closed-loop systems under control policies derived from optimal control or reinforcement learning (RL). Classical Lyapunov methods require a strict step-wise decrease in the Lyapunov function but such a certificate is difficult to construct for a learned control policy. The value function associated with an RL policy is a natural Lyapunov function candidate but it is not clear how it should be modified. To gain intuition, we first study the linear quadratic regulator (LQR) problem and make two key observations. First, a Lyapunov function can be obtained from the value function of an LQR policy by augmenting it with a residual term related to the system dynamics and stage cost. Second, the classical Lyapunov decrease requirement can be relaxed to a generalized Lyapunov condition requiring only decrease on average over multiple time steps. Using this intuition, we consider the nonlinear setting and formulate an approach to learn generalized Lyapunov functions by augmenting RL value functions with neural network residual terms. Our approach successfully certifies the stability of RL policies trained on Gymnasium and DeepMind Control benchmarks. We also extend our method to jointly train neural controllers and stability certificates using a multi-step Lyapunov loss, resulting in larger certified inner approximations of the region of attraction compared to the classical Lyapunov approach. Overall, our formulation enables stability certification for a broad class of systems with learned policies by making certificates easier to construct, thereby bridging classical control theory and modern learning-based methods.

arxiv情報

著者 Kehan Long,Jorge Cortés,Nikolay Atanasov
発行日 2025-05-16 07:36:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY, math.OC | Certifying Stability of Reinforcement Learning Policies using Generalized Lyapunov Functions はコメントを受け付けていません