要約
ロボットを正確に操作するには、模倣学習における豊富な空間情報が必要です。
画像ベースのポリシーは、カメラ ビューの変化に敏感な固定カメラからのオブジェクトの位置をモデル化します。
3D 点群を利用するポリシーは通常、連続的なアクションではなくキーフレームを予測するため、動的で接触が多いシナリオでは困難が生じます。
3D 知覚を効率的に利用するために、単一視点の点群から直接連続アクションを予測する、実世界の模倣学習のためのエンドツーエンドのベースラインである RISE を紹介します。
スパース 3D エンコーダを使用して、点群をトークンに圧縮します。
スパース位置エンコーディングを追加した後、トランスフォーマーを使用してトークンが特徴付けられます。
最後に、特徴は拡散ヘッドによってロボットの動作にデコードされます。
現実世界のタスクごとに 50 のデモンストレーションでトレーニングされた RISE は、現在代表的な 2D および 3D ポリシーを大幅に上回り、精度と効率の両方で大きな利点を示しています。
実験では、RISE が以前のベースラインと比較して、より一般的で環境変化に対して堅牢であることも実証されています。
プロジェクトの Web サイト:rise-policy.github.io。
要約(オリジナル)
Precise robot manipulations require rich spatial information in imitation learning. Image-based policies model object positions from fixed cameras, which are sensitive to camera view changes. Policies utilizing 3D point clouds usually predict keyframes rather than continuous actions, posing difficulty in dynamic and contact-rich scenarios. To utilize 3D perception efficiently, we present RISE, an end-to-end baseline for real-world imitation learning, which predicts continuous actions directly from single-view point clouds. It compresses the point cloud to tokens with a sparse 3D encoder. After adding sparse positional encoding, the tokens are featurized using a transformer. Finally, the features are decoded into robot actions by a diffusion head. Trained with 50 demonstrations for each real-world task, RISE surpasses currently representative 2D and 3D policies by a large margin, showcasing significant advantages in both accuracy and efficiency. Experiments also demonstrate that RISE is more general and robust to environmental change compared with previous baselines. Project website: rise-policy.github.io.
arxiv情報
著者 | Chenxi Wang,Hongjie Fang,Hao-Shu Fang,Cewu Lu |
発行日 | 2024-09-10 15:28:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google