A Policy Adaptation Method for Implicit Multitask Reinforcement Learning Problems

要約

接触や衝突などの動的なモーション生成タスクでは、ポリシー パラメーターのわずかな変更により、結果が大きく異なる可能性があります。
例えばサッカーでは、打つ位置やボールにかかる力、ボールの摩擦の変化などを少し変えることで、同じようなヘディング動作でもボールが全く違う方向に飛んでいきます。
しかし、ボールを異なる方向にヘディングするために、まったく異なるスキルが必要になるとは考えにくいです。
この研究では、異なる報酬関数または環境の物理パラメータを使用して、単一の動作カテゴリ内の目標または環境の暗黙的な変化にポリシーを適応させるためのマルチタスク強化学習アルゴリズムを提案しました。
一脚ロボットモデルを用いたボールヘディングタスクにおいて提案手法を評価した。
その結果、提案された方法はゴール位置やボールの反発係数の暗黙的な変化に適応できるが、標準的なドメインランダム化アプローチはさまざまなタスク設定に対応できないことが示されました。

要約(オリジナル)

In dynamic motion generation tasks, including contact and collisions, small changes in policy parameters can lead to extremely different returns. For example, in soccer, the ball can fly in completely different directions with a similar heading motion by slightly changing the hitting position or the force applied to the ball or when the friction of the ball varies. However, it is difficult to imagine that completely different skills are needed for heading a ball in different directions. In this study, we proposed a multitask reinforcement learning algorithm for adapting a policy to implicit changes in goals or environments in a single motion category with different reward functions or physical parameters of the environment. We evaluated the proposed method on the ball heading task using a monopod robot model. The results showed that the proposed method can adapt to implicit changes in the goal positions or the coefficients of restitution of the ball, whereas the standard domain randomization approach cannot cope with different task settings.

arxiv情報

著者 Satoshi Yamamori,Jun Morimoto
発行日 2023-08-31 05:26:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク