要約
モデルフリーの強化学習 (RL) は、通常、サンプルの複雑さが不十分です。これは主に、パフォーマンスの高いポリシーを見つけるために状態アクション空間を徹底的に探索する必要があるためです。
一方で、システムに関する専門知識があれば、優れたポリシーが常に従うことを期待する単純なルールを設計できる場合が多いと仮定します。
したがって、この研究では、そのようなルールを組み込み、次善であることが知られている状態アクション空間の領域を回避し、それによってRLエージェントの収束を大幅に加速する、連続アクター-クリティカルフレームワークのシンプルかつ効果的な修正を提案します。
具体的には、エージェントが選択したアクションが直感に従っていない場合は飽和させ、重要なことに、学習プロセスが飽和ステップの影響を受けないようポリシーの勾配更新ステップを変更します。
室温制御のケーススタディでは、エージェントは、計算オーバーヘッドなしで、良好な最終パフォーマンスを維持しながら、従来のエージェントよりも最大 6 ~ 7 倍の速さで、良好なパフォーマンスのポリシーに収束できます。
要約(オリジナル)
Model-free Reinforcement Learning (RL) generally suffers from poor sample complexity, mostly due to the need to exhaustively explore the state-action space to find well-performing policies. On the other hand, we postulate that expert knowledge of the system often allows us to design simple rules we expect good policies to follow at all times. In this work, we hence propose a simple yet effective modification of continuous actor-critic frameworks to incorporate such rules and avoid regions of the state-action space that are known to be suboptimal, thereby significantly accelerating the convergence of RL agents. Concretely, we saturate the actions chosen by the agent if they do not comply with our intuition and, critically, modify the gradient update step of the policy to ensure the learning process is not affected by the saturation step. On a room temperature control case study, it allows agents to converge to well-performing policies up to 6-7x faster than classical agents without computational overhead and while retaining good final performance.
arxiv情報
著者 | Loris Di Natale,Bratislav Svetozarevic,Philipp Heer,Colin N. Jones |
発行日 | 2023-09-12 09:39:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google