Resource-Constrained Station-Keeping for Helium Balloons using Reinforcement Learning

要約

高高度気球は、生態学的空中調査、大気監視、および通信中継に役立つことが証明されています。
ただし、重量と出力の制約により、成層圏を航行するための代替推進モードを調査する必要があります。
ごく最近、気球を固定位置の領域に維持するための制御方式として強化学習が提案されました。
エアポンプベースのステーション維持が調査されていますが、低コストの代替手段として一般的に使用されている、作動気球の通気およびバラストの制御問題に関する研究はありません。
このタイプのバルーンに強化学習を使用する方法を示します。
具体的には、ソフト アクター クリティック アルゴリズムを使用します。これは、最新技術と一致して、飛行の 25\% で平均 50\;km 以内にステーションを維持できます。
さらに、提案されたコントローラーがリソースの消費を効果的に最小化し、それによって長時間の飛行をサポートすることを示します。
離散的なアクション空間を使用する現在の最先端の作業とは対照的に、コントローラーを継続的な制御強化学習問題として組み立てます。これにより、より多様な範囲の軌跡が可能になります。
さらに、連続制御により、エアポンプでは不可能なより大きな上昇速度を利用できます。
以前の作業で使用された低レベルの制御コマンドと比較して、より透過的なポリシーを提供するために、望ましい上昇率が望ましい高度と時間係数に分離されます。
最後に、運動方程式を適用することにより、エージェントが環境を悪用するのを防ぐために、ベントとバラストの適切なしきい値を確立します。
より具体的には、ベントとバラストに制約を課すことで、アクションが物理的に実行可能であることを保証します。

要約(オリジナル)

High altitude balloons have proved useful for ecological aerial surveys, atmospheric monitoring, and communication relays. However, due to weight and power constraints, there is a need to investigate alternate modes of propulsion to navigate in the stratosphere. Very recently, reinforcement learning has been proposed as a control scheme to maintain the balloon in the region of a fixed location, facilitated through diverse opposing wind-fields at different altitudes. Although air-pump based station keeping has been explored, there is no research on the control problem for venting and ballasting actuated balloons, which is commonly used as a low-cost alternative. We show how reinforcement learning can be used for this type of balloon. Specifically, we use the soft actor-critic algorithm, which on average is able to station-keep within 50\;km for 25\% of the flight, consistent with state-of-the-art. Furthermore, we show that the proposed controller effectively minimises the consumption of resources, thereby supporting long duration flights. We frame the controller as a continuous control reinforcement learning problem, which allows for a more diverse range of trajectories, as opposed to current state-of-the-art work, which uses discrete action spaces. Furthermore, through continuous control, we can make use of larger ascent rates which are not possible using air-pumps. The desired ascent-rate is decoupled into desired altitude and time-factor to provide a more transparent policy, compared to low-level control commands used in previous works. Finally, by applying the equations of motion, we establish appropriate thresholds for venting and ballasting to prevent the agent from exploiting the environment. More specifically, we ensure actions are physically feasible by enforcing constraints on venting and ballasting.

arxiv情報

著者 Jack Saunders,Loïc Prenevost,Özgür Şimşek,Alan Hunter,Wenbin Li
発行日 2023-03-02 11:35:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク