要約
強化学習 (RL) は、人間の監督なしでインテリジェントな意思決定を行うエージェントを設計することで構成されます。
RL は、ニューラル ネットワーク (NN) などの関数近似器と併用すると、非常に複雑な問題を解決できます。
Deep Q-Learning は、Deep NN を使用する RL アルゴリズムであり、いくつかの特定のタスクで超人間的なパフォーマンスを達成しました。
それにもかかわらず、変分量子回路 (VQC) を RL アルゴリズムの関数近似器として使用することも可能です。
この研究では、古典的な制御ベンチマーク環境におけるこのような VQC ベースの深層 Q ラーニング モデルのパフォーマンスとトレーニング可能性を実証的に研究しています。
より具体的には、データの再アップロードがこれらの両方の指標にどのような影響を与えるかを調査します。
深層 Q ラーニングのターゲットが移動するため、これらのモデルの勾配の大きさと分散は、トレーニング全体にわたって実質的なままであることを示します。
さらに、量子ビットの数を増やしても、不毛プラトー現象によって予想されたものとは異なり、2 設計に近似する PQC の勾配の大きさと分散の指数関数的な消失動作が起こらないことを経験的に示しています。
これは、VQC がそのような状況で関数近似器として使用するのに特に適している可能性を示唆しています。
要約(オリジナル)
Reinforcement Learning (RL) consists of designing agents that make intelligent decisions without human supervision. When used alongside function approximators such as Neural Networks (NNs), RL is capable of solving extremely complex problems. Deep Q-Learning, a RL algorithm that uses Deep NNs, achieved super-human performance in some specific tasks. Nonetheless, it is also possible to use Variational Quantum Circuits (VQCs) as function approximators in RL algorithms. This work empirically studies the performance and trainability of such VQC-based Deep Q-Learning models in classic control benchmark environments. More specifically, we research how data re-uploading affects both these metrics. We show that the magnitude and the variance of the gradients of these models remain substantial throughout training due to the moving targets of Deep Q-Learning. Moreover, we empirically show that increasing the number of qubits does not lead to an exponential vanishing behavior of the magnitude and variance of the gradients for a PQC approximating a 2-design, unlike what was expected due to the Barren Plateau Phenomenon. This hints at the possibility of VQCs being specially adequate for being used as function approximators in such a context.
arxiv情報
著者 | Rodrigo Coelho,André Sequeira,Luís Paulo Santos |
発行日 | 2024-11-12 18:18:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google