要約
人間の手は卓越した器用さを持ち、長い間ロボット操作のインスピレーションの源となってきた。本研究では、難しい$textbf{H}$と$textbf{In}$交差操作タスク($textbf{H-InDex}$)を強化学習で解くために、人間の$textbf{H}$と$textbf{In}$形成された視覚表現学習フレームワークを提案する。本フレームワークは、(i)人間の手の3Dポーズ推定による事前学習、(ii)自己教師付きキーポイント検出によるオフライン適応、(iii)指数移動平均バッチノルムによる強化学習の3段階から構成される。最後の2つの段階は、事前訓練された表現のパラメータを合計$0.36%$修正するだけであり、事前訓練からの知識が完全に維持されることを保証する。我々は12の困難な器用な操作タスクを経験的に研究し、H-InDexが強力なベースライン手法や運動制御のための最近の視覚的基礎モデルを大きく上回ることを見出した。コードはhttps://yanjieze.com/H-InDex 。
要約(オリジナル)
Human hands possess remarkable dexterity and have long served as a source of inspiration for robotic manipulation. In this work, we propose a human $\textbf{H}$and$\textbf{-In}$formed visual representation learning framework to solve difficult $\textbf{Dex}$terous manipulation tasks ($\textbf{H-InDex}$) with reinforcement learning. Our framework consists of three stages: (i) pre-training representations with 3D human hand pose estimation, (ii) offline adapting representations with self-supervised keypoint detection, and (iii) reinforcement learning with exponential moving average BatchNorm. The last two stages only modify $0.36\%$ parameters of the pre-trained representation in total, ensuring the knowledge from pre-training is maintained to the full extent. We empirically study 12 challenging dexterous manipulation tasks and find that H-InDex largely surpasses strong baseline methods and the recent visual foundation models for motor control. Code is available at https://yanjieze.com/H-InDex .
arxiv情報
著者 | Yanjie Ze,Yuyao Liu,Ruizhe Shi,Jiaxin Qin,Zhecheng Yuan,Jiashun Wang,Huazhe Xu |
発行日 | 2023-10-02 17:59:03+00:00 |
arxivサイト | arxiv_id(pdf) |