Bridging the Human to Robot Dexterity Gap through Object-Oriented Rewards

要約

人間のビデオから直接ロボットをトレーニングすることは、ロボット工学とコンピューター ビジョンの新興分野です。
2 本指グリッパーは顕著な進歩を遂げていますが、この方法で多指ロボット ハンドの自律タスクを学習することは依然として困難です。
この困難の主な理由は、形態の違いにより、人間の手に訓練されたポリシーがロボットの手に直接適用できない可能性があることです。
この研究では、人間のビデオから報酬を直接計算することで、ポリシーをオンラインで微調整できる技術である HuDOR を紹介します。
重要なのは、この報酬関数は、既製のポイント トラッカーから派生したオブジェクト指向の軌道を使用して構築されており、人間とロボットの手の間の形態のギャップや視覚的な違いにもかかわらず、意味のある学習信号を提供することです。
オルゴールをそっと開けるなどのタスクを人間が解決する 1 つのビデオが与えられると、HuDOR を使用すると、4 本指の Allegro 手がわずか 1 時間のオンライン操作でタスクを学習できるようになります。
4 つのタスクにわたる実験では、HuDOR がベースラインと比較して 4 倍の改善を達成することが示されました。
コードとビデオは、当社の Web サイト https://object-rewards.github.io で入手できます。

要約(オリジナル)

Training robots directly from human videos is an emerging area in robotics and computer vision. While there has been notable progress with two-fingered grippers, learning autonomous tasks for multi-fingered robot hands in this way remains challenging. A key reason for this difficulty is that a policy trained on human hands may not directly transfer to a robot hand due to morphology differences. In this work, we present HuDOR, a technique that enables online fine-tuning of policies by directly computing rewards from human videos. Importantly, this reward function is built using object-oriented trajectories derived from off-the-shelf point trackers, providing meaningful learning signals despite the morphology gap and visual differences between human and robot hands. Given a single video of a human solving a task, such as gently opening a music box, HuDOR enables our four-fingered Allegro hand to learn the task with just an hour of online interaction. Our experiments across four tasks show that HuDOR achieves a 4x improvement over baselines. Code and videos are available on our website, https://object-rewards.github.io.

arxiv情報

著者 Irmak Guzey,Yinlong Dai,Georgy Savva,Raunaq Bhirangi,Lerrel Pinto
発行日 2024-10-30 17:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク