ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos

要約

この研究では、多指ロボットハンドがさまざまなポーズでさまざまなオブジェクトを操作するための統一されたビジョンベースのポリシーを学習することを目的としています。
これまでの研究では、人間のビデオがポリシー学習に有益であることが実証されていますが、パフォーマンスの向上は、ビデオから抽出された物理的にありえない軌跡によって制限されてきました。
さらに、グラウンドトゥルースオブジェクトの状態などの特権オブジェクト情報に依存すると、現実的なシナリオでの適用性がさらに制限されます。
これらの制限に対処するために、人間のビデオからのビジョンベースのポリシー学習を改善する新しいフレームワーク ViViDex を提案します。
まず、軌跡ガイド付き報酬による強化学習を使用して、各ビデオの状態ベースのポリシーをトレーニングし、ビデオから視覚的に自然で物理的に妥当な軌跡の両方を取得します。
次に、州ベースのポリシーから成功したエピソードを展開し、特権情報を使用せずに統一されたビジュアル ポリシーをトレーニングします。
パフォーマンスを大幅に向上させる座標変換方法が提案されています。
3 つの器用な操作タスクでメソッドを評価し、最先端のアルゴリズムに比べて大幅な改善が見られることを実証しました。

要約(オリジナル)

In this work, we aim to learn a unified vision-based policy for a multi-fingered robot hand to manipulate different objects in diverse poses. Though prior work has demonstrated that human videos can benefit policy learning, performance improvement has been limited by physically implausible trajectories extracted from videos. Moreover, reliance on privileged object information such as ground-truth object states further limits the applicability in realistic scenarios. To address these limitations, we propose a new framework ViViDex to improve vision-based policy learning from human videos. It first uses reinforcement learning with trajectory guided rewards to train state-based policies for each video, obtaining both visually natural and physically plausible trajectories from the video. We then rollout successful episodes from state-based policies and train a unified visual policy without using any privileged information. A coordinate transformation method is proposed to significantly boost the performance. We evaluate our method on three dexterous manipulation tasks and demonstrate a large improvement over state-of-the-art algorithms.

arxiv情報

著者 Zerui Chen,Shizhe Chen,Cordelia Schmid,Ivan Laptev
発行日 2024-04-24 07:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク