STRIDE: Automating Reward Design, Deep Reinforcement Learning Training and Feedback Optimization in Humanoid Robotics Locomotion

要約

ヒューマノイドロボットは、人工知能に大きな課題を提示し、高度の高度化システムの正確な調整と制御を必要とします。
このドメインにおける深い強化学習(DRL)の効果的な報酬機能の設計は、依然として重要なボトルネックであり、広範な手動の努力、ドメインの専門知識、反復改良を要求しています。
これらの課題を克服するために、Humanoid Robot Mocomotionタスクの報酬設計、DRLトレーニング、フィードバックの最適化を自動化するために、エージェントエンジニアリングに基づいた新しいフレームワークであるStrideを紹介します。
エージェントエンジニアリングの構造化された原理を、コードライティング、ゼロショット生成、およびコンテキスト内最適化のための大規模な言語モデル(LLMS)と組み合わせることにより、ストライドは、タスク固有のプロンプトやテンプレートに頼らずに報酬機能を生成、評価、および繰り返し洗練します。

ヒューマノイドロボットの形態を特徴とする多様な環境にわたって、Strideは最先端の報酬設計フレームワークEurekaを上回り、効率とタスクのパフォーマンスの大幅な改善を達成します。
ストライド生成の報酬を使用して、シミュレートされたヒューマノイドロボットは、複雑な地形でスプリントレベルの移動を実現し、DRLワークフローとヒューマノイドロボット研究を進める能力を強調します。

要約(オリジナル)

Humanoid robotics presents significant challenges in artificial intelligence, requiring precise coordination and control of high-degree-of-freedom systems. Designing effective reward functions for deep reinforcement learning (DRL) in this domain remains a critical bottleneck, demanding extensive manual effort, domain expertise, and iterative refinement. To overcome these challenges, we introduce STRIDE, a novel framework built on agentic engineering to automate reward design, DRL training, and feedback optimization for humanoid robot locomotion tasks. By combining the structured principles of agentic engineering with large language models (LLMs) for code-writing, zero-shot generation, and in-context optimization, STRIDE generates, evaluates, and iteratively refines reward functions without relying on task-specific prompts or templates. Across diverse environments featuring humanoid robot morphologies, STRIDE outperforms the state-of-the-art reward design framework EUREKA, achieving significant improvements in efficiency and task performance. Using STRIDE-generated rewards, simulated humanoid robots achieve sprint-level locomotion across complex terrains, highlighting its ability to advance DRL workflows and humanoid robotics research.

arxiv情報

著者 Zhenwei Wu,Jinxiong Lu,Yuxiao Chen,Yunxin Liu,Yueting Zhuang,Luhui Hu
発行日 2025-02-07 06:37:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | STRIDE: Automating Reward Design, Deep Reinforcement Learning Training and Feedback Optimization in Humanoid Robotics Locomotion はコメントを受け付けていません

Adaptive Learning-based Model Predictive Control Strategy for Drift Vehicles

要約

ドリフト車両制御は、極端な条件で安全な自律運転をサポートするための貴重な洞察を提供します。これは、ドリフト平衡点(DEP)の近くで車両状態を維持しながら、特定の経路を追跡することにかかっています。
ただし、従来の追跡方法は、反対のステアリング角度とヨーレートのため、ドリフト車両に適応できません。
このホワイトペーパーでは、ドリフト状態を動的に調整して基準パスに従って調整し、リリースされた計算負荷で一般的に利用される予測パス追跡方法を改善するための適応パス追跡(APT)制御方法を提案します。
さらに、既存の制御戦略では、DEPを計算するために正確なシステムモデルを必要とします。これは、非常に非線形ドリフトダイナミクスと敏感な車両パラメーターのためにより扱いやすい場合があります。
この問題に取り組むために、適応学習ベースのモデル予測制御(ALMPC)戦略がAPTメソッドに基づいて提案されています。この方法では、上位レベルのベイジアン最適化が採用され、DEPおよびAPTコントロール法を学習して低レベルのMPCドリフトを指示することが提案されています。
コントローラ。
この階層システムアーキテクチャは、これらの目的を異なるレイヤーに分離することにより、パス追跡とドリフトの間の固有の制御競合を解決することもできます。
ALMPC戦略はMATLAB-CARSIMプラットフォームで検証されており、シミュレーション結果は、誤認された道路摩擦摩擦パラメーターでさえ、クロクロイドベースの参照パスに従うためのドリフト車両を制御する際の有効性を示しています。

要約(オリジナル)

Drift vehicle control offers valuable insights to support safe autonomous driving in extreme conditions, which hinges on tracking a particular path while maintaining the vehicle states near the drift equilibrium points (DEP). However, conventional tracking methods are not adaptable for drift vehicles due to their opposite steering angle and yaw rate. In this paper, we propose an adaptive path tracking (APT) control method to dynamically adjust drift states to follow the reference path, improving the commonly utilized predictive path tracking methods with released computation burden. Furthermore, existing control strategies necessitate a precise system model to calculate the DEP, which can be more intractable due to the highly nonlinear drift dynamics and sensitive vehicle parameters. To tackle this problem, an adaptive learning-based model predictive control (ALMPC) strategy is proposed based on the APT method, where an upper-level Bayesian optimization is employed to learn the DEP and APT control law to instruct a lower-level MPC drift controller. This hierarchical system architecture can also resolve the inherent control conflict between path tracking and drifting by separating these objectives into different layers. The ALMPC strategy is verified on the Matlab-Carsim platform, and simulation results demonstrate its effectiveness in controlling the drift vehicle to follow a clothoid-based reference path even with the misidentified road friction parameter.

arxiv情報

著者 Bei Zhou,Cheng Hu,Jun Zeng,Zhouheng Li,Johannes Betz,Lei Xie,Hongye Su
発行日 2025-02-07 06:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Adaptive Learning-based Model Predictive Control Strategy for Drift Vehicles はコメントを受け付けていません

Assigning Credit with Partial Reward Decoupling in Multi-Agent Proximal Policy Optimization

要約

マルチエージェント近位政策最適化(MAPPO)は最近、挑戦的なマルチエージェント強化学習タスクに関する最先端のパフォーマンスを実証しました。
ただし、Mappoは依然としてクレジット割り当ての問題に苦労しており、個々のエージェントのアクションに対するクレジットをチームの規模であまり拡大していないという困難です。
この論文では、MAPPOを改善するためにクレジット割り当ての最近の開発を適応させるマルチエージェント強化学習アルゴリズムを提案します。
私たちのアプローチは、部分的な報酬分離(PRD)を活用します。これは、学習した注意メカニズムを使用して、特定のエージェントのチームメイトのどれが学習更新に関連しているかを推定します。
この推定値を使用して、エージェントの大規模なグループをより小さく、より管理しやすいサブグループに動的に分解します。
当社のアプローチであるPRD-Mappoが、予想される将来の報酬に影響を与えないチームメイトのエージェントを離脱し、それによりクレジットの割り当てを合理化することを経験的に実証します。
さらに、PRD-Mappoは、Starcraft IIを含むいくつかのマルチエージェントタスクにわたるMAPPOおよびその他の最先端の方法の両方と比較して、大幅に高いデータ効率と漸近パフォーマンスをもたらすことを示しています。
最後に、PRDが以前は適用されていなかった\ TextIT {Shared}報酬設定に適用できるPRD-Mappoのバージョンを提案し、これがMAPPOのパフォーマンスの改善にもつながることを経験的に示しています。

要約(オリジナル)

Multi-agent proximal policy optimization (MAPPO) has recently demonstrated state-of-the-art performance on challenging multi-agent reinforcement learning tasks. However, MAPPO still struggles with the credit assignment problem, wherein the sheer difficulty in ascribing credit to individual agents’ actions scales poorly with team size. In this paper, we propose a multi-agent reinforcement learning algorithm that adapts recent developments in credit assignment to improve upon MAPPO. Our approach leverages partial reward decoupling (PRD), which uses a learned attention mechanism to estimate which of a particular agent’s teammates are relevant to its learning updates. We use this estimate to dynamically decompose large groups of agents into smaller, more manageable subgroups. We empirically demonstrate that our approach, PRD-MAPPO, decouples agents from teammates that do not influence their expected future reward, thereby streamlining credit assignment. We additionally show that PRD-MAPPO yields significantly higher data efficiency and asymptotic performance compared to both MAPPO and other state-of-the-art methods across several multi-agent tasks, including StarCraft II. Finally, we propose a version of PRD-MAPPO that is applicable to \textit{shared} reward settings, where PRD was previously not applicable, and empirically show that this also leads to performance improvements over MAPPO.

arxiv情報

著者 Aditya Kapoor,Benjamin Freed,Howie Choset,Jeff Schneider
発行日 2025-02-07 10:48:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO | Assigning Credit with Partial Reward Decoupling in Multi-Agent Proximal Policy Optimization はコメントを受け付けていません

SOLD: Slot Object-Centric Latent Dynamics Models for Relational Manipulation Learning from Pixels

要約

潜在的なダイナミクスモデルを学習すると、エージェントの環境に対する理解のタスクに依存しない表現が提供されます。
モデルベースの強化学習(RL)のこの知識を活用すると、想像上のロールアウトから学習することにより、モデルのない方法よりもサンプル効率を改善する可能性があります。
さらに、潜在空間は行動モデルへの入力として機能するため、世界モデルによって学んだ有益な表現は、望ましいスキルの効率的な学習を促進します。
ほとんどの既存の方法は、環境状態の全体的な表現に依存しています。
対照的に、人間はオブジェクトとその相互作用についての理由で、行動が周囲の特定の部分にどのように影響するかを予測します。
これに触発されて、オブジェクト中心のダイナミクス(販売)のスロットアテンションを提案します。これは、ピクセル入力から監視されていない方法でオブジェクト中心のダイナミクスモデルを学習する新しいモデルベースのRLアルゴリズムです。
構造化された潜在スペースは、モデルの解釈性を向上させるだけでなく、行動モデルが推論するための貴重な入力空間を提供することを実証します。
我々の結果は、販売が、リレーショナル推論と操作機能を必要とするさまざまなベンチマークロボット環境にわたって、最先端のモデルベースのRLアルゴリズムを超えるDreamerV3およびTD-MPC2を上回ることを示しています。
ビデオはhttps://slot-latent-dynamics.github.io/で入手できます。

要約(オリジナル)

Learning a latent dynamics model provides a task-agnostic representation of an agent’s understanding of its environment. Leveraging this knowledge for model-based reinforcement learning (RL) holds the potential to improve sample efficiency over model-free methods by learning from imagined rollouts. Furthermore, because the latent space serves as input to behavior models, the informative representations learned by the world model facilitate efficient learning of desired skills. Most existing methods rely on holistic representations of the environment’s state. In contrast, humans reason about objects and their interactions, predicting how actions will affect specific parts of their surroundings. Inspired by this, we propose Slot-Attention for Object-centric Latent Dynamics (SOLD), a novel model-based RL algorithm that learns object-centric dynamics models in an unsupervised manner from pixel inputs. We demonstrate that the structured latent space not only improves model interpretability but also provides a valuable input space for behavior models to reason over. Our results show that SOLD outperforms DreamerV3 and TD-MPC2 – state-of-the-art model-based RL algorithms – across a range of benchmark robotic environments that require relational reasoning and manipulation capabilities. Videos are available at https://slot-latent-dynamics.github.io/.

arxiv情報

著者 Malte Mosbach,Jan Niklas Ewertz,Angel Villar-Corrales,Sven Behnke
発行日 2025-02-07 10:52:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | SOLD: Slot Object-Centric Latent Dynamics Models for Relational Manipulation Learning from Pixels はコメントを受け付けていません

Online Robot Motion Planning Methodology Guided by Group Social Proxemics Feature

要約

現在、ロボットは、社会的またはサービスアプリケーションで人間のような認識、推論、行動パターンを示すことになっています。
ただし、既存のモーション計画方法のほとんどは、上記の要件と互換性がありません。
潜在的な理由は、既存のナビゲーションアルゴリズムが通常、人々を別の種類の障害として扱うことを意図しており、社会的原則や意識を考慮に入れないことです。
このホワイトペーパーでは、グループのプロキシミクスをモデル化し、ロボットのシナリオ認識とナビゲーションに融合しようとします。
この目的のために、社会的関連性と空間的信頼の両方を考慮したグループクラスタリング方法が導入されます。
ロボットが個人を識別し、それらをグループに分割できるようにすることができます。
次に、磁気双極子モデル内の個々のプロキシミクスを定義することを提案し、ベクトルフィールドの重ね合わせによりグループプロキシミクスとシナリオマップをさらに確立します。
グループのクラスタリングおよびプロキシミクスモデリングに基づいて、グループの最適な観測位置(OOPS)を取得する方法を提示します。
OOPSグリッドとシナリオマップが確立されると、ヒューリスティックパスが使用され、インタラクティブな目的のためにグループ間でロボットクルージングをガイドするパスを生成します。
一連の実験が実用的なロボットで提案された方法論を検証するために実施され、結果は、私たちの方法論がグループ認識の精度と経路生成効率に関する有望なパフォーマンスを達成したことを実証しています。
これは、グループの認識が、実際のシナリオでロボットを社会的に振る舞う重要なモジュールとして進化したと結論付けています。

要約(オリジナル)

Nowadays robot is supposed to demonstrate human-like perception, reasoning and behavior pattern in social or service application. However, most of the existing motion planning methods are incompatible with above requirement. A potential reason is that the existing navigation algorithms usually intend to treat people as another kind of obstacle, and hardly take the social principle or awareness into consideration. In this paper, we attempt to model the proxemics of group and blend it into the scenario perception and navigation of robot. For this purpose, a group clustering method considering both social relevance and spatial confidence is introduced. It can enable robot to identify individuals and divide them into groups. Next, we propose defining the individual proxemics within magnetic dipole model, and further established the group proxemics and scenario map through vector-field superposition. On the basis of the group clustering and proxemics modeling, we present the method to obtain the optimal observation positions (OOPs) of group. Once the OOPs grid and scenario map are established, a heuristic path is employed to generate path that guide robot cruising among the groups for interactive purpose. A series of experiments are conducted to validate the proposed methodology on the practical robot, the results have demonstrated that our methodology has achieved promising performance on group recognition accuracy and path-generation efficiency. This concludes that the group awareness evolved as an important module to make robot socially behave in the practical scenario.

arxiv情報

著者 Xuan Mu,Xiaorui Liu,Shuai Guo,Wenzheng Chi,Wei Wang,Shuzhi Sam Ge
発行日 2025-02-07 11:10:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Online Robot Motion Planning Methodology Guided by Group Social Proxemics Feature はコメントを受け付けていません

$TAR^2$: Temporal-Agent Reward Redistribution for Optimal Policy Preservation in Multi-Agent Reinforcement Learning

要約

協力的なマルチエージェント補強学習(MARL)では、グローバルな報酬がまばらで遅れている場合、効果的なポリシーを学習することは困難です。
この困難は、エージェントとタイムステップの両方にクレジットを割り当てる必要性から生じます。これは、既存の方法がエピソードで長老のタスクで対処できないことが多い問題です。
一時的な報酬再分配$ tar^2 $を提案します。これは、エージェント固有のタイムステップ固有のコンポーネントにまばらなグローバルな報酬を分解する新しいアプローチを提案します。
理論的には、$ tar^2 $(i)が潜在的な報酬形状に合わせて、元の環境と同じ最適なポリシーを維持することを示し、(ii)元のスパース報酬の下にあるものと同一のポリシーグラデーションの更新方向を維持し、確実にします。
公平なクレジット信号。
2つの挑戦的なベンチマークであるSmacliteとGoogle Research Footballの経験的結果は、$ tar^2 $が収束を大幅に安定させ、加速し、学習速度と最終パフォーマンスの両方でArelやSTAのような強力なベースラインを上回ることを示しています。
これらの調査結果は、まばらな報酬マルチエージェントシステムにおけるエージェントと同時の信用割り当ての原則的かつ実用的なソリューションとして$ tar^2 $を確立します。

要約(オリジナル)

In cooperative multi-agent reinforcement learning (MARL), learning effective policies is challenging when global rewards are sparse and delayed. This difficulty arises from the need to assign credit across both agents and time steps, a problem that existing methods often fail to address in episodic, long-horizon tasks. We propose Temporal-Agent Reward Redistribution $TAR^2$, a novel approach that decomposes sparse global rewards into agent-specific, time-step-specific components, thereby providing more frequent and accurate feedback for policy learning. Theoretically, we show that $TAR^2$ (i) aligns with potential-based reward shaping, preserving the same optimal policies as the original environment, and (ii) maintains policy gradient update directions identical to those under the original sparse reward, ensuring unbiased credit signals. Empirical results on two challenging benchmarks, SMACLite and Google Research Football, demonstrate that $TAR^2$ significantly stabilizes and accelerates convergence, outperforming strong baselines like AREL and STAS in both learning speed and final performance. These findings establish $TAR^2$ as a principled and practical solution for agent-temporal credit assignment in sparse-reward multi-agent systems.

arxiv情報

著者 Aditya Kapoor,Kale-ab Tessera,Mayank Baranwal,Harshad Khadilkar,Stefano Albrecht,Mingfei Sun
発行日 2025-02-07 12:07:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO | $TAR^2$: Temporal-Agent Reward Redistribution for Optimal Policy Preservation in Multi-Agent Reinforcement Learning はコメントを受け付けていません

Training-free Task-oriented Grasp Generation

要約

このペーパーでは、事前に訓練された把握モデルとビジョン言語モデル(VLM)を組み合わせたタスク指向の把握生成のためのトレーニングフリーパイプラインを紹介します。
安定した握りのみに焦点を当てた従来のアプローチとは異なり、私たちの方法には、VLMSのセマンティック推論機能を活用することにより、タスク固有の要件が組み込まれています。
5つのクエリ戦略を評価し、それぞれが候補の握りの異なる視覚表現を利用し、成功とタスクコンプライアンス率の両方でベースライン方法よりも大幅な改善を示し、全体的な成功率が最大36.9%の絶対的な増加を示します。
私たちの結果は、タスク指向の操作を強化するVLMの可能性を強調し、ロボットグラッピングと人間とロボットの相互作用における将来の研究の洞察を提供します。

要約(オリジナル)

This paper presents a training-free pipeline for task-oriented grasp generation that combines pre-trained grasp generation models with vision-language models (VLMs). Unlike traditional approaches that focus solely on stable grasps, our method incorporates task-specific requirements by leveraging the semantic reasoning capabilities of VLMs. We evaluate five querying strategies, each utilizing different visual representations of candidate grasps, and demonstrate significant improvements over a baseline method in both grasp success and task compliance rates, with absolute gains of up to 36.9% in overall success rate. Our results underline the potential of VLMs to enhance task-oriented manipulation, providing insights for future research in robotic grasping and human-robot interaction.

arxiv情報

著者 Jiaming Wang,Jizhuo Chen,Diwen Liu
発行日 2025-02-07 12:26:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Training-free Task-oriented Grasp Generation はコメントを受け付けていません

The Role of Integrity Monitoring in Connected and Automated Vehicles: Current State-of-Practice and Future Directions

要約

コネクテッドおよび自動化された車両(CAV)の研究は、過去10年間で、知覚、ナビゲーション、コミュニケーション、および制御機能の大幅な進歩により、牽引力を獲得しました。
CAVアプリケーションの要件を満たすには、特に安全性がある場合は、正確で信頼できる位置情報が必要です。
さまざまな知覚センサー(カメラ、ライダーなど)の出現により、車両のポジショニングシステムの精度と堅牢性の両方が改善されました。
車両間車両(V2V)と車両間(V2I)ベースの協同組合ポジショニングは、位置推定の精度を改善できますが、協同環境でのマルチセンサー融合に関与する完全性のリスクはまだ完全には検討されていません。
このペーパーでは、整合性監視(IM)の配置分野での既存の研究をレビューし、さまざまな研究ギャップを特定します。
協力的なIM方法を強調する研究を特定することに特に注意が払われています。
この分析は、将来の協力的なポジショニングソリューションのための新しいIMフレームワークの開発への道を開くのに役立ちます。

要約(オリジナル)

Connected and Automated Vehicle (CAV) research has gained traction in the last decade due to significant advancements in perception, navigation, communication, and control functions. Accurate and reliable position information is needed to meet the requirements of CAV applications, especially when safety is concerned. With the advent of various perception sensors (e.g. camera, LiDAR, etc.), the vehicular positioning system has improved both in accuracy and robustness. Vehicle-to-Vehicle (V2V) and Vehicle-to-Infrastructure (V2I) based cooperative positioning can improve the accuracy of the position estimates, but the integrity risks involved in multi-sensor fusion in a cooperative environment have not yet been fully explored. This paper reviews existing research in the field of positioning Integrity Monitoring (IM) and identifies various research gaps. Particular attention has been placed on identifying research that highlights cooperative IM methods. This analysis helps pave the way for the development of new IM frameworks for cooperative positioning solutions in the future.

arxiv情報

著者 Saswat Priyadarshi Nayak,Matthew Barth
発行日 2025-02-07 12:27:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | The Role of Integrity Monitoring in Connected and Automated Vehicles: Current State-of-Practice and Future Directions はコメントを受け付けていません

Effective Sampling for Robot Motion Planning Through the Lens of Lattices

要約

(通常はランダムな)サンプリングを介してロボットの自由空間の構造をキャプチャするモーション計画のためのサンプリングベースの方法は、スケーラビリティ、シンプルさ、および確率的完全性や漸近最適性などのグローバルな保証を提供するために人気を獲得しました。
残念ながら、これらの保証の実用性は、有限数のサンプル(つまり、有限の実行時間)に対するモーションプランナーの動作に関する洞察を提供しないため、限られたままです。
この作業では、格子理論と$(\ delta、\ epsilon)$の概念を活用します – Tsao et al。
(2020)実行時間を最小限に抑えながら、プランナーに強い有限時間保証を与えた決定論的なサンプルセットを構築する。
特に、$ a_d^*$ latticeに基づいた高効率の決定的なサンプリングアプローチを導入します。
新しいサンプリングアプローチを使用して、複雑なモーションプランニング問題のための既存の決定論的で均一なランダムサンプリング方法よりも少なくとも秩序のスピードアップを取得します。
全体として、私たちの仕事は、サンプリングベースのモーション計画の実際的な適用性を進めながら、深い数学的洞察を提供します。

要約(オリジナル)

Sampling-based methods for motion planning, which capture the structure of the robot’s free space via (typically random) sampling, have gained popularity due to their scalability, simplicity, and for offering global guarantees, such as probabilistic completeness and asymptotic optimality. Unfortunately, the practicality of those guarantees remains limited as they do not provide insights into the behavior of motion planners for a finite number of samples (i.e., a finite running time). In this work, we harness lattice theory and the concept of $(\delta,\epsilon)$-completeness by Tsao et al. (2020) to construct deterministic sample sets that endow their planners with strong finite-time guarantees while minimizing running time. In particular, we introduce a highly-efficient deterministic sampling approach based on the $A_d^*$ lattice, which is the best-known geometric covering in dimensions $\leq 21$. Using our new sampling approach, we obtain at least an order-of-magnitude speedup over existing deterministic and uniform random sampling methods for complex motion-planning problems. Overall, our work provides deep mathematical insights while advancing the practical applicability of sampling-based motion planning.

arxiv情報

著者 Itai Panasoff,Kiril Solovey
発行日 2025-02-07 13:26:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.DM, cs.RO | Effective Sampling for Robot Motion Planning Through the Lens of Lattices はコメントを受け付けていません

Convergent NMPC-based Reinforcement Learning Using Deep Expected Sarsa and Nonlinear Temporal Difference Learning

要約

この論文では、NMPCスキームの最適な重みを学習するために、元の強化学習(RL)メソッドを使用して、学習ベースの非線形モデル予測コントローラー(NMPC)を提示します。
コントローラーは、通常二次NMPCで取得される後続のアクション値関数がニューラルネットワーク(NN)で近似される、予想される深いSARSAの現在のアクション値関数として使用されます。
既存のメソッドに関しては、NNの入力にNMPCの学習パラメーターの現在の値を追加して、ネットワークがアクション値関数を近似し、学習パフォーマンスを安定させることができます。
さらに、NNを使用すると、閉ループのパフォーマンスに影響を与えることなく、リアルタイムの計算負荷がほぼ半分になります。
さらに、関数近似に非線形性が存在する場合、潜在的なパラメーターの発散と不安定性の問題を克服するために、予想されるSARSA RL法の関数近似として、勾配の時間差法とパラメータ化されたNMPCを組み合わせます。
シミュレーション結果は、提案されたアプローチが不安定な問題のない局所的に最適なソリューションに収束することを示しています。

要約(オリジナル)

In this paper, we present a learning-based nonlinear model predictive controller (NMPC) using an original reinforcement learning (RL) method to learn the optimal weights of the NMPC scheme. The controller is used as the current action-value function of a deep Expected Sarsa where the subsequent action-value function, usually obtained with a secondary NMPC, is approximated with a neural network (NN). With respect to existing methods, we add to the NN’s input the current value of the NMPC’s learned parameters so that the network is able to approximate the action-value function and stabilize the learning performance. Additionally, with the use of the NN, the real-time computational burden is approximately halved without affecting the closed-loop performance. Furthermore, we combine gradient temporal difference methods with parametrized NMPC as function approximator of the Expected Sarsa RL method to overcome the potential parameters divergence and instability issues when nonlinearities are present in the function approximation. The simulation result shows that the proposed approach converges to a locally optimal solution without instability problems.

arxiv情報

著者 Amine Salaje,Thomas Chevet,Nicolas Langlois
発行日 2025-02-07 13:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Convergent NMPC-based Reinforcement Learning Using Deep Expected Sarsa and Nonlinear Temporal Difference Learning はコメントを受け付けていません