Automatic Environment Shaping is the Next Frontier in RL

要約

多くのロボット工学者は、夕方ロボットにタスクを提示し、翌朝戻ってきてそのタスクを解決できるロボットを見つけることを夢見ています。
これを達成することを妨げているものは何でしょうか?
Sim-to-real 強化学習 (RL) は、困難なロボット タスクで目覚ましいパフォーマンスを達成しましたが、RL に適した方法でタスクを設定するには、かなりの人的努力が必要です。
ポリシーの最適化やその他のアイデアにおけるアルゴリズムの改善は、トレーニング環境の形成、つまり観察、アクション、報酬、シミュレーションのダイナミクスの設計における主要なボトルネックの解決に向けて導かれるべきである、というのが私たちの立場です。
ほとんどの実践者は、RL アルゴリズムを調整するのではなく、望ましいコントローラーを取得するために他の環境パラメーターを調整します。
RL を多様なロボット タスクに拡張することは、コミュニティが環境形成手順の自動化に焦点を当てた場合にのみ達成されると考えています。

要約(オリジナル)

Many roboticists dream of presenting a robot with a task in the evening and returning the next morning to find the robot capable of solving the task. What is preventing us from achieving this? Sim-to-real reinforcement learning (RL) has achieved impressive performance on challenging robotics tasks, but requires substantial human effort to set up the task in a way that is amenable to RL. It’s our position that algorithmic improvements in policy optimization and other ideas should be guided towards resolving the primary bottleneck of shaping the training environment, i.e., designing observations, actions, rewards and simulation dynamics. Most practitioners don’t tune the RL algorithm, but other environment parameters to obtain a desirable controller. We posit that scaling RL to diverse robotic tasks will only be achieved if the community focuses on automating environment shaping procedures.

arxiv情報

著者 Younghyo Park,Gabriel B. Margolis,Pulkit Agrawal
発行日 2024-07-23 05:22:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク