要約
この論文は、物理環境での迅速な学習を達成するという課題を動機として、モデルベースの強化学習技術を使用して迷路ゲームをナビゲートし解決するように設計されたロボット システムの開発とトレーニングについて説明します。
この方法では、迷路内の現在位置を中心とするトリミングおよび修正された画像パッチとともに、カメラ画像から低次元の観察結果を抽出し、迷路のレイアウトに関する貴重な情報を提供します。
制御ポリシーの学習は、モデルベースの強化学習を使用して純粋に物理システム上で実行され、迷路の経路に沿った進行状況が報酬信号として機能します。
さらに、システム固有の対称性を利用してトレーニング データを強化します。
その結果、私たちのアプローチは、わずか 5 時間の実世界のトレーニング データを使用して、記録的な速さで人気のある現実世界の迷宮ゲームを首尾よく解決することを学習します。
要約(オリジナル)
Motivated by the challenge of achieving rapid learning in physical environments, this paper presents the development and training of a robotic system designed to navigate and solve a labyrinth game using model-based reinforcement learning techniques. The method involves extracting low-dimensional observations from camera images, along with a cropped and rectified image patch centered on the current position within the labyrinth, providing valuable information about the labyrinth layout. The learning of a control policy is performed purely on the physical system using model-based reinforcement learning, where the progress along the labyrinth’s path serves as a reward signal. Additionally, we exploit the system’s inherent symmetries to augment the training data. Consequently, our approach learns to successfully solve a popular real-world labyrinth game in record time, with only 5 hours of real-world training data.
arxiv情報
著者 | Thomas Bi,Raffaello D’Andrea |
発行日 | 2023-12-15 16:08:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google