要約
マルコフ決定プロセス (MDP) は、強化学習におけるエージェントの学習プロセスを定式化するための数学的フレームワークを提示します。
MDP は、報酬は即時の状態とアクションのみに依存するというマルコフの仮定によって制限されます。
ただし、報酬は状態とアクションの履歴に依存する場合があり、その結果、非マルコフ環境での決定プロセスが発生する可能性があります。
このような環境では、エージェントは一時的に拡張された行動を介してまばらに報酬を受け取り、学習したポリシーは類似している可能性があります。
これにより、同様のポリシーで取得されたエージェントは、通常、特定のタスクに過剰適合し、環境の摂動に迅速に適応できなくなります。
この問題を解決するために、この論文では、非マルコフ環境下での状態と行動のペアの歴史から多様な政策を学習しようとします。この環境では、多様な政策表現を求めるために政策分散スキームが設計されています。
具体的には、最初にトランスフォーマーベースの方法を採用して、ポリシーの埋め込みを学習します。
次に、ポリシー埋め込みを積み重ねて分散マトリックスを構築し、一連の多様なポリシーを誘導します。
最後に、分散行列が正定である場合、分散された埋め込みがポリシー間の不一致を効果的に拡大し、元のポリシー埋め込み分布の多様な表現を生成できることを証明します。
実験結果は、この分散スキームがより表現力豊かな多様なポリシーを取得できることを示しています。これにより、さまざまな学習環境下での最近の学習ベースラインよりも堅牢なパフォーマンスが得られます。
要約(オリジナル)
Markov Decision Process (MDP) presents a mathematical framework to formulate the learning processes of agents in reinforcement learning. MDP is limited by the Markovian assumption that a reward only depends on the immediate state and action. However, a reward sometimes depends on the history of states and actions, which may result in the decision process in a non-Markovian environment. In such environments, agents receive rewards via temporally-extended behaviors sparsely, and the learned policies may be similar. This leads the agents acquired with similar policies generally overfit to the given task and can not quickly adapt to perturbations of environments. To resolve this problem, this paper tries to learn the diverse policies from the history of state-action pairs under a non-Markovian environment, in which a policy dispersion scheme is designed for seeking diverse policy representation. Specifically, we first adopt a transformer-based method to learn policy embeddings. Then, we stack the policy embeddings to construct a dispersion matrix to induce a set of diverse policies. Finally, we prove that if the dispersion matrix is positive definite, the dispersed embeddings can effectively enlarge the disagreements across policies, yielding a diverse expression for the original policy embedding distribution. Experimental results show that this dispersion scheme can obtain more expressive diverse policies, which then derive more robust performance than recent learning baselines under various learning environments.
arxiv情報
著者 | Bohao Qu,Xiaofeng Cao,Jielong Yang,Hechang Chen,Chang Yi,Ivor W. Tsang,Yew-Soon Ong |
発行日 | 2023-02-28 11:58:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google