Deep Bayesian Reinforcement Learning for Spacecraft Proximity Maneuvers and Docking

要約

自律的な宇宙船近接操作とドッキング(PMD)の追求において,安定性を保証した制御方針を学習するための新しいベイジアンアクター批判的強化学習アルゴリズムを導入した。
PMD タスクは、相対動的モデル、ドッキング コーン、コスト関数を反映するマルコフ決定プロセスとして定式化されます。
リャプノフ理論の原理に基づいて、時間差分学習を制約付きガウス過程回帰問題として組み立てます。
この革新的なアプローチにより、ガウス プロセスとディープ カーネル学習を活用して、状態値関数をリアプノフ関数として表現できるようになります。
私たちは、リアプノフベースの安定性制約を統合しながら政策勾配を分析的に計算するための新しいベイジアン求積政策最適化手順を開発します。
この統合は、宇宙飛行ミッションの厳しい安全要求を満たす上で極めて重要です。
提案されたアルゴリズムは宇宙船のエアベアリング テストベッドで実験的に評価され、印象的で有望なパフォーマンスを示しています。

要約(オリジナル)

In the pursuit of autonomous spacecraft proximity maneuvers and docking(PMD), we introduce a novel Bayesian actor-critic reinforcement learning algorithm to learn a control policy with the stability guarantee. The PMD task is formulated as a Markov decision process that reflects the relative dynamic model, the docking cone and the cost function. Drawing from the principles of Lyapunov theory, we frame the temporal difference learning as a constrained Gaussian process regression problem. This innovative approach allows the state-value function to be expressed as a Lyapunov function, leveraging the Gaussian process and deep kernel learning. We develop a novel Bayesian quadrature policy optimization procedure to analytically compute the policy gradient while integrating Lyapunov-based stability constraints. This integration is pivotal in satisfying the rigorous safety demands of spaceflight missions. The proposed algorithm has been experimentally evaluated on a spacecraft air-bearing testbed and shows impressive and promising performance.

arxiv情報

著者 Desong Du,Naiming Qi,Yanfang Liu,Wei Pan
発行日 2023-11-07 03:12:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク