要約
強化学習は、人間の遠隔操作やハードコードされた方針が失敗する可能性のある、動きの速い、オブジェクトと対話する領域においても、複雑な方針を学習するための有望なツールである。この困難なタスクのカテゴリーを効果的に反映するために、我々はロボットのエアホッケーをベースとした動的でインタラクティブなRLテストベッドを紹介する。エアホッケーに、手を伸ばすような簡単なタスクから、パックを当ててブロックを押すような難しいタスク、さらには目標ベースのタスクや人間との対話タスクまで、様々なタスクを追加することで、我々のテストベッドはRL能力の多様な評価を可能にする。ロボット・エアホッケーのテストベッドは、3つのドメイン(忠実度を増した2つのシミュレータと実際のロボットシステム)によるシミュからリアルへの転送もサポートしている。仮想化された制御環境と人間のシャドーイングという2つの遠隔操作システムを通じて収集された実証データのデータセットを用いて、我々は、動作クローニング、オフラインRL、ゼロからのRLでテストベッドを評価する。
要約(オリジナル)
Reinforcement Learning is a promising tool for learning complex policies even in fast-moving and object-interactive domains where human teleoperation or hard-coded policies might fail. To effectively reflect this challenging category of tasks, we introduce a dynamic, interactive RL testbed based on robot air hockey. By augmenting air hockey with a large family of tasks ranging from easy tasks like reaching, to challenging ones like pushing a block by hitting it with a puck, as well as goal-based and human-interactive tasks, our testbed allows a varied assessment of RL capabilities. The robot air hockey testbed also supports sim-to-real transfer with three domains: two simulators of increasing fidelity and a real robot system. Using a dataset of demonstration data gathered through two teleoperation systems: a virtualized control environment, and human shadowing, we assess the testbed with behavior cloning, offline RL, and RL from scratch.
arxiv情報
著者 | Caleb Chuck,Carl Qi,Michael J. Munje,Shuozhe Li,Max Rudolph,Chang Shi,Siddhant Agarwal,Harshit Sikchi,Abhinav Peri,Sarthak Dayal,Evan Kuo,Kavan Mehta,Anthony Wang,Peter Stone,Amy Zhang,Scott Niekum |
発行日 | 2024-05-06 02:13:08+00:00 |
arxivサイト | arxiv_id(pdf) |