要約
ロボットに人間のような動作を生成することは、特にロボットハンドを使った器用な操作タスクにおいて大きな課題です。
高次元の制御空間があるため、ゼロからポリシーをスクリプト化するのは困難であり、強化学習 (RL) と手動の報酬エンジニアリングを使用したトレーニング ポリシーも困難で、不自然な動作につながる可能性があります。
人間によるフィードバックからの RL の最近の進歩を活用して、人間によるデモンストレーションを 1 つも行わずに、シミュレーションで 20 の両手ロボット操作タスクの RL ポリシーを効率的に調整するために、ビデオに対する直接的な人間の好みのフィードバックを使用して普遍的な人間の事前学習を行うフレームワークを提案します。
。
タスクに依存しない報酬モデルは、さまざまなポリシーを繰り返し生成し、軌道に対する人間の好みを収集することでトレーニングされます。
その後、微調整段階でポリシーの動作を正規化するために適用されます。
私たちの方法は、目に見えないタスクを含むさまざまなタスクにおいてロボットハンドのより人間に近い動作を実証し、その一般化能力を示しています。
要約(オリジナル)
Generating human-like behavior on robots is a great challenge especially in dexterous manipulation tasks with robotic hands. Scripting policies from scratch is intractable due to the high-dimensional control space, and training policies with reinforcement learning (RL) and manual reward engineering can also be hard and lead to unnatural motions. Leveraging the recent progress on RL from Human Feedback, we propose a framework that learns a universal human prior using direct human preference feedback over videos, for efficiently tuning the RL policies on 20 dual-hand robot manipulation tasks in simulation, without a single human demonstration. A task-agnostic reward model is trained through iteratively generating diverse polices and collecting human preference over the trajectories; it is then applied for regularizing the behavior of polices in the fine-tuning stage. Our method empirically demonstrates more human-like behaviors on robot hands in diverse tasks including even unseen tasks, indicating its generalization capability.
arxiv情報
著者 | Zihan Ding,Yuanpei Chen,Allen Z. Ren,Shixiang Shane Gu,Qianxu Wang,Hao Dong,Chi Jin |
発行日 | 2023-09-13 06:19:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google