Waypoint-Based Reinforcement Learning for Robot Manipulation Tasks

要約

ロボットアームは新しいタスクを学習できる必要があります。
ここでの 1 つのフレームワークは強化学習です。強化学習では、タスクをエンコードする報酬関数がロボットに与えられ、ロボットは報酬を最大化するために行動を自律的に学習します。
強化学習への既存のアプローチでは、多くの場合、この問題をマルコフ決定プロセスとして組み立て、タスクを完了するためのポリシー (またはポリシーの階層) を学習します。
これらのポリシーは、ロボット アームが実行する必要がある何百もの詳細なアクション (たとえば、わずかに右に移動する、エンドエフェクターを数度回転するなど) を推論します。
しかし、ロボットに実行してもらいたい操作タスクは、多くの場合、物体に到達する、ハンドルを回すなど、少数の高レベルの動作に分割できます。
したがって、この論文では、モデルフリーの強化学習のためのウェイポイントベースのアプローチを提案します。
低レベルのポリシーを学習する代わりに、ロボットはウェイポイントの軌道を学習し、既存のコントローラーを使用してそれらのウェイポイント間を補間します。
私たちの主な目新しさは、このウェイポイントベースの設定を一連の多腕バンディットとして構成していることです。各バンディットの問題は、ロボットの動きに沿った 1 つのウェイポイントに対応しています。
この再定式化に対する理想的な解決策は、標準的なフレームワークよりも後悔限度が低いことを理論的に示します。
また、一度に 1 つのウェイポイントごとにロボットの動作を構築する近似事後サンプリング ソリューションも紹介します。
ベンチマーク シミュレーションと 2 つの実際の実験の結果は、この提案されたアプローチが最先端のベースラインよりも迅速に新しいタスクを学習することを示唆しています。
ここでビデオをご覧ください: https://youtu.be/MMEd-lYfq4Y

要約(オリジナル)

Robot arms should be able to learn new tasks. One framework here is reinforcement learning, where the robot is given a reward function that encodes the task, and the robot autonomously learns actions to maximize its reward. Existing approaches to reinforcement learning often frame this problem as a Markov decision process, and learn a policy (or a hierarchy of policies) to complete the task. These policies reason over hundreds of fine-grained actions that the robot arm needs to take: e.g., moving slightly to the right or rotating the end-effector a few degrees. But the manipulation tasks that we want robots to perform can often be broken down into a small number of high-level motions: e.g., reaching an object or turning a handle. In this paper we therefore propose a waypoint-based approach for model-free reinforcement learning. Instead of learning a low-level policy, the robot now learns a trajectory of waypoints, and then interpolates between those waypoints using existing controllers. Our key novelty is framing this waypoint-based setting as a sequence of multi-armed bandits: each bandit problem corresponds to one waypoint along the robot’s motion. We theoretically show that an ideal solution to this reformulation has lower regret bounds than standard frameworks. We also introduce an approximate posterior sampling solution that builds the robot’s motion one waypoint at a time. Results across benchmark simulations and two real-world experiments suggest that this proposed approach learns new tasks more quickly than state-of-the-art baselines. See videos here: https://youtu.be/MMEd-lYfq4Y

arxiv情報

著者 Shaunak A. Mehta,Soheil Habibian,Dylan P. Losey
発行日 2024-03-20 03:42:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク