You Only Teach Once: Learn One-Shot Bimanual Robotic Manipulation from Video Demonstrations

要約

両手によるロボット操作は、双腕の時空間調整と高次元の行動空間の特性により、身体化知能の長年の課題です。
これまでの研究では、これらの問題を軽減または回避するために、事前に定義されたアクション分類法または直接遠隔操作に依存しており、多くの場合、単純性、汎用性、拡張性に欠けています。
これとは異なり、両手操作を教えるための最も効果的かつ効率的な方法は、人間が実演するビデオから学ぶことだと考えています。ビデオでは、時空間位置、動的な姿勢、インタラクション状態、巧みなトランジションなどの豊富な機能がほぼ無料で利用できます。
この研究では、手の動きのわずか 1 回の両眼観察から両手操作のパターンを抽出して注入し、デュアル ロボット アームにさまざまな複雑なタスクを教えることができる YOTO (You Only Teach Once) を提案します。
さらに、キーフレームベースのモーション軌跡に基づいて、操作オブジェクトとその位置の多様なバリエーションを含むトレーニング デモンストレーションを迅速に生成するための微妙なソリューションを考案します。
これらのデータは、さまざまなシーンにわたってカスタマイズされた両手拡散ポリシー (BiDP) を学習するために使用できます。
実験では、YOTO は 5 つの複雑な長期にわたる両手タスクを模倣する際に印象的なパフォーマンスを達成し、さまざまな視覚的および空間的条件下で強力な汎化性を備え、精度と効率の点で既存の視覚運動模倣学習方法を上回りました。
私たちのプロジェクトのリンクは https://hnuzhy.github.io/projects/YOTO です。

要約(オリジナル)

Bimanual robotic manipulation is a long-standing challenge of embodied intelligence due to its characteristics of dual-arm spatial-temporal coordination and high-dimensional action spaces. Previous studies rely on pre-defined action taxonomies or direct teleoperation to alleviate or circumvent these issues, often making them lack simplicity, versatility and scalability. Differently, we believe that the most effective and efficient way for teaching bimanual manipulation is learning from human demonstrated videos, where rich features such as spatial-temporal positions, dynamic postures, interaction states and dexterous transitions are available almost for free. In this work, we propose the YOTO (You Only Teach Once), which can extract and then inject patterns of bimanual actions from as few as a single binocular observation of hand movements, and teach dual robot arms various complex tasks. Furthermore, based on keyframes-based motion trajectories, we devise a subtle solution for rapidly generating training demonstrations with diverse variations of manipulated objects and their locations. These data can then be used to learn a customized bimanual diffusion policy (BiDP) across diverse scenes. In experiments, YOTO achieves impressive performance in mimicking 5 intricate long-horizon bimanual tasks, possesses strong generalization under different visual and spatial conditions, and outperforms existing visuomotor imitation learning methods in accuracy and efficiency. Our project link is https://hnuzhy.github.io/projects/YOTO.

arxiv情報

著者 Huayi Zhou,Ruixiang Wang,Yunxin Tai,Yueci Deng,Guiliang Liu,Kui Jia
発行日 2025-01-24 03:26:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク