Learning a Universal Human Prior for Dexterous Manipulation from Human Preference

要約

タイトル – 人間の好みから巧緻な操作に対する全人類にとって普遍的な事前学習の学習

要約 –

・ロボットに人間らしい行動を生成することは大きな課題の一つであるが、特に巧緻な操作に対してはその難易度が高い。何もサンプル制約がないシミュレーションであっても、高次元の自由度のために、制御することが難しいといった課題を抱えている。
・Reinforcement Learning from Human Feedback (RLHF)の最近の進歩を生かして、直接的な人間の好みフィードバックを使って、シミュレーション内で20の二重手ロボット操作タスクのRLポリシーを効率的にチューニングするためのフレームワークを提案している。
・人間の好みフィードバックを使って、ポリシーを生成したり、軌跡を収集することで、タスクに関する報酬モデルを作成し、微調整を行っている。
・この方法は、シミュレーション内で様々なタスクに対して、見たことがないタスクでも含めて人間らしい動きを示し、その汎化能力を実証した。

要約(オリジナル)

Generating human-like behavior on robots is a great challenge especially in dexterous manipulation tasks with robotic hands. Even in simulation with no sample constraints, scripting controllers is intractable due to high degrees of freedom, and manual reward engineering can also be hard and lead to non-realistic motions. Leveraging the recent progress on Reinforcement Learning from Human Feedback (RLHF), we propose a framework to learn a universal human prior using direct human preference feedback over videos, for efficiently tuning the RL policy on 20 dual-hand robot manipulation tasks in simulation, without a single human demonstration. One task-agnostic reward model is trained through iteratively generating diverse polices and collecting human preference over the trajectories; it is then applied for regularizing the behavior of polices in the fine-tuning stage. Our method empirically demonstrates more human-like behaviors on robot hands in diverse tasks including even unseen tasks, indicating its generalization capability.

arxiv情報

著者 Zihan Ding,Yuanpei Chen,Allen Z. Ren,Shixiang Shane Gu,Hao Dong,Chi Jin
発行日 2023-04-10 14:17:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.HC, cs.LG, cs.RO パーマリンク