H-InDex: Visual Reinforcement Learning with Hand-Informed Representations for Dexterous Manipulation

要約

人間の手は驚くべき器用さを備えており、長い間ロボット操作のインスピレーションの源として機能してきました。
この研究では、困難な $\textbf{Dex}$terous 操作タスク ($\textbf{H-InDex) を解決するために、人間による $\textbf{H}$and$\textbf{-In}$形成された視覚表現学習フレームワークを提案します
}$) 強化学習を使用します。
私たちのフレームワークは、(i) 3D 人間の手の姿勢推定による事前トレーニング表現、(ii) 自己教師ありキーポイント検出によるオフライン適応表現、および (iii) 指数移動平均 BatchNorm による強化学習の 3 つの段階で構成されます。
最後の 2 つのステージでは、事前トレーニングされた表現の合計 $0.36\%$ パラメーターのみが変更され、事前トレーニングからの知識が最大限に維持されることが保証されます。
私たちは、12 の難しい器用な操作タスクを実証的に研究し、H-InDex が強力なベースライン手法や、モーター制御のための最近の視覚的基礎モデルを大幅に上回っていることを発見しました。
コードは https://yanjieze.com/H-InDex で入手できます。

要約(オリジナル)

Human hands possess remarkable dexterity and have long served as a source of inspiration for robotic manipulation. In this work, we propose a human $\textbf{H}$and$\textbf{-In}$formed visual representation learning framework to solve difficult $\textbf{Dex}$terous manipulation tasks ($\textbf{H-InDex}$) with reinforcement learning. Our framework consists of three stages: (i) pre-training representations with 3D human hand pose estimation, (ii) offline adapting representations with self-supervised keypoint detection, and (iii) reinforcement learning with exponential moving average BatchNorm. The last two stages only modify $0.36\%$ parameters of the pre-trained representation in total, ensuring the knowledge from pre-training is maintained to the full extent. We empirically study 12 challenging dexterous manipulation tasks and find that H-InDex largely surpasses strong baseline methods and the recent visual foundation models for motor control. Code is available at https://yanjieze.com/H-InDex .

arxiv情報

著者 Yanjie Ze,Yuyao Liu,Ruizhe Shi,Jiaxin Qin,Zhecheng Yuan,Jiashun Wang,Huazhe Xu
発行日 2023-10-13 03:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク