要約
意思決定に関連し、効果的に実行できる行動を学習することは、自律ロボット工学における重要な問題である。現在のロボット工学における最先端の行動表現には、ロボットの行動の適切な効果駆動学習が欠けている。操作タスクの解決には成功しているが、ディープラーニング手法も、メモリや学習データの点で高コストであることに加え、この能力に欠けている。本論文では、連続的な運動空間を離散化し、それぞれが環境に異なる効果をもたらす「行動プロトタイプ」を生成する教師なしアルゴリズムを提案する。探索段階の後、アルゴリズムは自動的に効果の表現を構築し、アクションプロトタイプにモーションをグループ化する。本手法を階段昇降強化学習タスクのシミュレーションで評価し、予備的な結果として、本効果駆動離散化が、収束速度と最大報酬において、一様離散化やランダムサンプリング離散化を凌駕することを示す。
要約(オリジナル)
Learning actions that are relevant to decision-making and can be executed effectively is a key problem in autonomous robotics. Current state-of-the-art action representations in robotics lack proper effect-driven learning of the robot’s actions. Although successful in solving manipulation tasks, deep learning methods also lack this ability, in addition to their high cost in terms of memory or training data. In this paper, we propose an unsupervised algorithm to discretize a continuous motion space and generate ‘action prototypes’, each producing different effects in the environment. After an exploration phase, the algorithm automatically builds a representation of the effects and groups motions into action prototypes, where motions more likely to produce an effect are represented more than those that lead to negligible changes. We evaluate our method on a simulated stair-climbing reinforcement learning task, and the preliminary results show that our effect driven discretization outperforms uniformly and randomly sampled discretizations in convergence speed and maximum reward.
arxiv情報
| 著者 | Marko Zaric,Jakob Hollenstein,Justus Piater,Erwan Renaudo |
| 発行日 | 2024-04-03 13:28:52+00:00 |
| arxivサイト | arxiv_id(pdf) |