要約
私たちは、逐次相互作用を通じて未知の非線形力学システムを制御する方法を学習するという問題に取り組みます。
ロボット工学やヘルスケアなど、ミスが致命的となる可能性がある一か八かのアプリケーションを動機として、私たちは高速な逐次学習が発生する可能性がある状況を研究しています。
高速逐次学習は、十分な情報が得られたベースラインと比較して、学習エージェントが対数的な後悔を引き起こす能力によって特徴付けられます。
我々は、最適な制御ポリシーが持続的に刺激的であれば、システムのダイナミクスが未知のパラメーターに滑らかに依存するさまざまなクラスの連続制御問題で高速逐次学習が達成可能であることを実証します。
さらに、最適なポリシーが持続的に刺激的ではない場合のインタラクション数の平方根とともに増加するリグレス限界を導出します。
我々の結果は、未知のパラメータに非線形に依存する非線形力学システムを制御するための最初のリグレス限界を提供します。
私たちの理論が予測する傾向を、単純な力学システムのシミュレーションで検証します。
要約(オリジナル)
We address the problem of learning to control an unknown nonlinear dynamical system through sequential interactions. Motivated by high-stakes applications in which mistakes can be catastrophic, such as robotics and healthcare, we study situations where it is possible for fast sequential learning to occur. Fast sequential learning is characterized by the ability of the learning agent to incur logarithmic regret relative to a fully-informed baseline. We demonstrate that fast sequential learning is achievable in a diverse class of continuous control problems where the system dynamics depend smoothly on unknown parameters, provided the optimal control policy is persistently exciting. Additionally, we derive a regret bound which grows with the square root of the number of interactions for cases where the optimal policy is not persistently exciting. Our results provide the first regret bounds for controlling nonlinear dynamical systems depending nonlinearly on unknown parameters. We validate the trends our theory predicts in simulation on a simple dynamical system.
arxiv情報
著者 | James Wang,Bruce D. Lee,Ingvar Ziemann,Nikolai Matni |
発行日 | 2025-01-17 15:42:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google