Policy composition in reinforcement learning via multi-objective policy optimization

要約

関連する既存の教師ポリシーを利用して、強化学習エージェントが成功した行動ポリシーを学習できるようにします。
教師のポリシーは、複数の目的のポリシー最適化設定で、タスクの目的に加えて目的としても導入されます。
多目的最大事後的ポリシー最適化アルゴリズム \citep{abdolmaleki2020distributional} を使用して、教師のポリシーが、特に報酬を形成しない場合に学習のスピードアップに役立つことを示します。
継続的な観察スペースとアクション スペースを持つ 2 つのドメインで、エージェントは教師のポリシーを順番に並行して作成することに成功し、タスクを解決するために教師のポリシーをさらに拡張することもできます。
タスクと教師の指定された組み合わせに応じて、教師はエージェントの最終的なパフォーマンスを制限するように自然に動作する可能性があります。
エージェントが教師のポリシーにどの程度従う必要があるかは、学習速度に対する教師の影響と、タスクに対するエージェントの最終的なパフォーマンスの両方を決定するハイパーパラメーターによって決まります。
{\tt humanoid} ドメイン \citep{deepmindcontrolsuite2018} では、エージェントに教師の選択を制御する機能も備えています。
この機能により、エージェントは教師ポリシーから有意義に構成し、教師ポリシーにアクセスできない場合よりも {\tt walk} タスクで優れたタスク報酬を達成できます。
構成されたタスク ポリシーと、対応する教師のポリシーの類似性をビデオを通じて示します。

要約(オリジナル)

We enable reinforcement learning agents to learn successful behavior policies by utilizing relevant pre-existing teacher policies. The teacher policies are introduced as objectives, in addition to the task objective, in a multi-objective policy optimization setting. Using the Multi-Objective Maximum a Posteriori Policy Optimization algorithm \citep{abdolmaleki2020distributional}, we show that teacher policies can help speed up learning, particularly in the absence of shaping rewards. In two domains with continuous observation and action spaces, our agents successfully compose teacher policies in sequence and in parallel, and are also able to further extend the policies of the teachers in order to solve the task. Depending on the specified combination of task and teacher(s), teacher(s) may naturally act to limit the final performance of an agent. The extent to which agents are required to adhere to teacher policies are determined by hyperparameters which determine both the effect of teachers on learning speed and the eventual performance of the agent on the task. In the {\tt humanoid} domain \citep{deepmindcontrolsuite2018}, we also equip agents with the ability to control the selection of teachers. With this ability, agents are able to meaningfully compose from the teacher policies to achieve a superior task reward on the {\tt walk} task than in cases without access to the teacher policies. We show the resemblance of composed task policies with the corresponding teacher policies through videos.

arxiv情報

著者 Shruti Mishra,Ankit Anand,Jordan Hoffmann,Nicolas Heess,Martin Riedmiller,Abbas Abdolmaleki,Doina Precup
発行日 2023-08-29 17:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク