要約
本研究では、多指ロボットハンドが多様な姿勢で多様な物体を操作するための、視覚に基づく統一的なポリシーの学習を目指す。先行研究では、ポリシーの学習に人間の映像を用いることの利点が示されているが、性能の向上は、推定された軌道のノイズによって制限されている。さらに、地上の真実の物体状態のような特権的な物体情報に依存することは、現実的なシナリオでの適用性をさらに制限する。これらの限界に対処するために、我々は、人間の映像からの視覚ベースの政策学習を改善するための新しいフレームワークViViDexを提案する。ViViDexはまず、軌跡誘導報酬を用いた強化学習を用いて、各動画の状態ベースのポリシーを学習し、動画から視覚的に自然で物理的にもっともらしい軌跡を得る。次に、状態ベースの方針から成功したエピソードをロールアウトし、特権情報を用いずに統一的な視覚的方針を学習する。視覚的点群表現をさらに強化するために座標変換を提案し、視覚的ポリシーのトレーニングのために行動クローニングと拡散ポリシーを比較する。シミュレーションと実際のロボットを用いた実験の結果、ViViDexは3つの器用な操作タスクにおいて、最先端のアプローチを凌駕することが実証された。
要約(オリジナル)
In this work, we aim to learn a unified vision-based policy for multi-fingered robot hands to manipulate a variety of objects in diverse poses. Though prior work has shown benefits of using human videos for policy learning, performance gains have been limited by the noise in estimated trajectories. Moreover, reliance on privileged object information such as ground-truth object states further limits the applicability in realistic scenarios. To address these limitations, we propose a new framework ViViDex to improve vision-based policy learning from human videos. It first uses reinforcement learning with trajectory guided rewards to train state-based policies for each video, obtaining both visually natural and physically plausible trajectories from the video. We then rollout successful episodes from state-based policies and train a unified visual policy without using any privileged information. We propose coordinate transformation to further enhance the visual point cloud representation, and compare behavior cloning and diffusion policy for the visual policy training. Experiments both in simulation and on the real robot demonstrate that ViViDex outperforms state-of-the-art approaches on three dexterous manipulation tasks.
arxiv情報
著者 | Zerui Chen,Shizhe Chen,Etienne Arlaud,Ivan Laptev,Cordelia Schmid |
発行日 | 2025-03-01 23:26:22+00:00 |
arxivサイト | arxiv_id(pdf) |