DR-PETS: Learning-Based Control With Planning in Adversarial Environments

要約

信頼性の高い現実世界の意思決定には、認識的、おそらく敵対的な摂動に対する堅牢性を確保することが不可欠です。
軌跡サンプリング(PET)アルゴリズムを備えた確率的アンサンブルは、アンサンブルベースの確率モデルを介して本質的に不確実性を処理しますが、構造化された敵対的または最悪の不確実性分布に対する保証がありません。
これに対処するために、敵対的な摂動に対する堅牢性を証明するペットの分布的に堅牢な拡張であるdr-petsを提案します。
P-Wasserstein Ambiguityセットを介して不確実性を正式にし、最悪の最適化フレームワークを通じて最悪のケースを認識する計画を可能にします。
ペットは確率的に確率を占めていますが、DRペットは、ペット計画ループに統合された扱いやすい凸近似を介して堅牢性を積極的に最適化します。
振り子の安定化とカートポールバランスの実験は、DR-PETが敵対的なパラメーター摂動に対する堅牢性を証明し、ペットが悪化する最悪のシナリオで一貫したパフォーマンスを達成することを示しています。

要約(オリジナル)

Ensuring robustness against epistemic, possibly adversarial, perturbations is essential for reliable real-world decision-making. While the Probabilistic Ensembles with Trajectory Sampling (PETS) algorithm inherently handles uncertainty via ensemble-based probabilistic models, it lacks guarantees against structured adversarial or worst-case uncertainty distributions. To address this, we propose DR-PETS, a distributionally robust extension of PETS that certifies robustness against adversarial perturbations. We formalize uncertainty via a p-Wasserstein ambiguity set, enabling worst-case-aware planning through a min-max optimization framework. While PETS passively accounts for stochasticity, DR-PETS actively optimizes robustness via a tractable convex approximation integrated into PETS planning loop. Experiments on pendulum stabilization and cart-pole balancing show that DR-PETS certifies robustness against adversarial parameter perturbations, achieving consistent performance in worst-case scenarios where PETS deteriorates.

arxiv情報

著者 Hozefa Jesawada,Antonio Acernese,Giovanni Russo,Carmen Del Vecchiob
発行日 2025-03-26 15:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク