Sample-efficient Model-based Reinforcement Learning for Quantum Control

要約

モデルフリー RL よりもサンプルの複雑さが改善された、ノイズの多い時間依存ゲート最適化のためのモデルベースの強化学習 (RL) アプローチを提案します。
サンプルの複雑さは、物理システムとのコントローラーの相互作用の数です。
ニューラル常微分方程式 (ODE) の最近の進歩に触発された帰納的バイアスを活用し、学習可能なハミルトニアン解によってパラメータ化された自動微分可能な ODE を使用して、制御を含む時間依存部分が完全に制御される環境を近似するモデルを表現します。
知られています。
連続的な時間に依存しないパラメータのハミルトニアン学習と並行した制御は、システムとの相互作用を通じて対処されます。
シングルショット測定、任意のヒルベルト空間切断およびハミルトニアンの不確実性を組み込んだ現実的な数値実験において、閉システムおよび開システムダイナミクスを備えたいくつかの標準的なユニタリーゲートを準備する際に、標準モデルフリー RL と比較して、私たちの方法のサンプル複雑さにおいて桁違いの利点を実証します。
パラメーター。
また、学習されたハミルトニアンは、初期化として RL によって検出されたコントローラーを使用して、さらに勾配ベースの最適化を行うために、GRAPE などの既存の制御手法によって活用できます。
この論文で窒素空孔 (NV) 中心とトランスモンに適用したアルゴリズムは、部分的に特徴付けられた 1 量子ビットおよび 2 量子ビット システムの制御によく適しています。

要約(オリジナル)

We propose a model-based reinforcement learning (RL) approach for noisy time-dependent gate optimization with improved sample complexity over model-free RL. Sample complexity is the number of controller interactions with the physical system. Leveraging an inductive bias, inspired by recent advances in neural ordinary differential equations (ODEs), we use an auto-differentiable ODE parametrised by a learnable Hamiltonian ansatz to represent the model approximating the environment whose time-dependent part, including the control, is fully known. Control alongside Hamiltonian learning of continuous time-independent parameters is addressed through interactions with the system. We demonstrate an order of magnitude advantage in the sample complexity of our method over standard model-free RL in preparing some standard unitary gates with closed and open system dynamics, in realistic numerical experiments incorporating single shot measurements, arbitrary Hilbert space truncations and uncertainty in Hamiltonian parameters. Also, the learned Hamiltonian can be leveraged by existing control methods like GRAPE for further gradient-based optimization with the controllers found by RL as initializations. Our algorithm that we apply on nitrogen vacancy (NV) centers and transmons in this paper is well suited for controlling partially characterised one and two qubit systems.

arxiv情報

著者 Irtaza Khalid,Carrie A. Weidner,Edmond A. Jonckheere,Sophie G. Shermer,Frank C. Langbein
発行日 2023-10-02 16:50:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, quant-ph パーマリンク