Laboratory Experiments of Model-based Reinforcement Learning for Adaptive Optics Control

要約

地球に似た系外惑星の直接画像化は、次世代の地上望遠鏡の最も顕著な科学的推進力の 1 つです。
通常、地球に似た系外惑星は主星から小さな角度で離れたところに位置しているため、その検出は困難です。
したがって、補償光学 (AO) システムの制御アルゴリズムは、系外惑星と主星が生成する残留光を区別できるように慎重に設計する必要があります。
AO 制御を改善するための新しい有望な研究手段は、強化学習 (RL) などのデータ駆動型制御手法に基づいています。
RL は機械学習研究分野の活発な分野であり、環境との相互作用を通じてシステムの制御を学習します。
したがって、RL は AO 制御への自動化されたアプローチとみなすことができ、その使用方法は完全にターンキー操作です。
特に、モデルベースの強化学習 (MBRL) は、時間的エラーと位置ずれエラーの両方に対処できることが示されています。
同様に、トレーニングと実行において効率的でありながら、非線形波面センシングに適応することが実証されています。
この作業では、AO のポリシー最適化 (PO4AO) と呼ばれる RL メソッドを ESO 本部の GHOST テスト ベンチに実装および適応させ、実験室環境でこのメソッドの強力なパフォーマンスを実証します。
私たちの実装では、推論と並行してトレーニングを実行できます。これは上空での運用にとって重要です。
特に、この方法の予測的側面と自己調整的側面を研究します。
PyTorch を実行する GHOST での新しい実装では、ハードウェア、パイプライン、Python インターフェイスの遅延に加えて、わずか約 700 マイクロ秒しか発生しません。
私たちは実装用の十分に文書化されたコードをオープンソース化し、RTC パイプラインの要件を指定します。
また、メソッドの重要なハイパーパラメータ、レイテンシの原因、レイテンシを低くする実装のための可能なパスについても説明します。

要約(オリジナル)

Direct imaging of Earth-like exoplanets is one of the most prominent scientific drivers of the next generation of ground-based telescopes. Typically, Earth-like exoplanets are located at small angular separations from their host stars, making their detection difficult. Consequently, the adaptive optics (AO) system’s control algorithm must be carefully designed to distinguish the exoplanet from the residual light produced by the host star. A new promising avenue of research to improve AO control builds on data-driven control methods such as Reinforcement Learning (RL). RL is an active branch of the machine learning research field, where control of a system is learned through interaction with the environment. Thus, RL can be seen as an automated approach to AO control, where its usage is entirely a turnkey operation. In particular, model-based reinforcement learning (MBRL) has been shown to cope with both temporal and misregistration errors. Similarly, it has been demonstrated to adapt to non-linear wavefront sensing while being efficient in training and execution. In this work, we implement and adapt an RL method called Policy Optimization for AO (PO4AO) to the GHOST test bench at ESO headquarters, where we demonstrate a strong performance of the method in a laboratory environment. Our implementation allows the training to be performed parallel to inference, which is crucial for on-sky operation. In particular, we study the predictive and self-calibrating aspects of the method. The new implementation on GHOST running PyTorch introduces only around 700 microseconds in addition to hardware, pipeline, and Python interface latency. We open-source well-documented code for the implementation and specify the requirements for the RTC pipeline. We also discuss the important hyperparameters of the method, the source of the latency, and the possible paths for a lower latency implementation.

arxiv情報

著者 Jalo Nousiainen,Byron Engler,Markus Kasper,Chang Rajani,Tapio Helin,Cédric T. Heritier,Sascha P. Quanz,Adrian M. Glauser
発行日 2023-12-30 14:11:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.IM, cs.LG, cs.RO パーマリンク