Practice Makes Perfect: Planning to Learn Skill Parameter Policies

要約

複雑で長期にわたるタスクにおけるロボットの効果的な意思決定に向けた有望なアプローチの 1 つは、パラメーター化されたスキルを順番に並べることです。
ロボットが最初に (1) パラメータ化されたスキルのライブラリ、(2) 目標が与えられたスキルを順番に並べるための AI プランナー、(3) スキル パラメータを選択するための非常に一般的な事前分布を備えている設定を考えます。
ロボットは展開されると、環境内の特定のオブジェクト、目標、制約に合わせてスキル パラメーターの選択ポリシーを特化することで、パフォーマンスを向上させる方法を迅速かつ自律的に学習する必要があります。
この研究では、将来のタスクの成功を最大限に高めるためにどのスキルを練習するかを選択するというアクティブ ラーニングの問題に焦点を当てます。
私たちは、ロボットが各スキルの能力を推定し、能力を外挿し(「練習によって能力はどの程度向上するか?」と尋ねます)、能力を意識した計画を通じてタスク配分の中にスキルを位置付けるべきであると提案します。
このアプローチは、ロボットが環境をリセットすることなく繰り返し計画、練習、学習する完全自律システム内で実装されます。
シミュレーションでの実験を通じて、私たちのアプローチはいくつかのベースラインよりもサンプル効率的に効果的なパラメーター ポリシーを学習することがわかりました。
現実世界での実験では、私たちのアプローチが知覚と制御からのノイズを処理する能力を実証し、数時間の自律訓練後に 2 つの長期にわたるモバイル操作タスクを解決するロボットの能力を向上させました。

要約(オリジナル)

One promising approach towards effective robot decision making in complex, long-horizon tasks is to sequence together parameterized skills. We consider a setting where a robot is initially equipped with (1) a library of parameterized skills, (2) an AI planner for sequencing together the skills given a goal, and (3) a very general prior distribution for selecting skill parameters. Once deployed, the robot should rapidly and autonomously learn to improve its performance by specializing its skill parameter selection policy to the particular objects, goals, and constraints in its environment. In this work, we focus on the active learning problem of choosing which skills to practice to maximize expected future task success. We propose that the robot should estimate the competence of each skill, extrapolate the competence (asking: ‘how much would the competence improve through practice?’), and situate the skill in the task distribution through competence-aware planning. This approach is implemented within a fully autonomous system where the robot repeatedly plans, practices, and learns without any environment resets. Through experiments in simulation, we find that our approach learns effective parameter policies more sample-efficiently than several baselines. Experiments in the real-world demonstrate our approach’s ability to handle noise from perception and control and improve the robot’s ability to solve two long-horizon mobile-manipulation tasks after a few hours of autonomous practice.

arxiv情報

著者 Nishanth Kumar,Tom Silver,Willie McClinton,Linfeng Zhao,Stephen Proulx,Tomás Lozano-Pérez,Leslie Pack Kaelbling,Jennifer Barry
発行日 2024-02-22 23:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク