要約
強化学習のための表現駆動型フレームワークを紹介します。
ポリシーをその期待値の推定値として表すことで、コンテキスト盗賊の手法を活用して探索と活用をガイドします。
特に、線形特徴空間にポリシー ネットワークを埋め込むことにより、探索と活用の問題を表現と活用の問題として再構築することができ、優れたポリシー表現により最適な探索が可能になります。
我々は、このフレームワークを進化的アプローチとポリシー勾配ベースのアプローチに適用することで、このフレームワークの有効性を実証し、従来の手法と比較してパフォーマンスが大幅に向上しました。
私たちのフレームワークは、強化学習に関する新しい視点を提供し、最適な探索・活用戦略を決定する際のポリシー表現の重要性を強調しています。
要約(オリジナル)
We present a representation-driven framework for reinforcement learning. By representing policies as estimates of their expected values, we leverage techniques from contextual bandits to guide exploration and exploitation. Particularly, embedding a policy network into a linear feature space allows us to reframe the exploration-exploitation problem as a representation-exploitation problem, where good policy representations enable optimal exploration. We demonstrate the effectiveness of this framework through its application to evolutionary and policy gradient-based approaches, leading to significantly improved performance compared to traditional methods. Our framework provides a new perspective on reinforcement learning, highlighting the importance of policy representation in determining optimal exploration-exploitation strategies.
arxiv情報
著者 | Ofir Nabati,Guy Tennenholtz,Shie Mannor |
発行日 | 2023-05-31 14:59:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google