Scaling Manipulation Learning with Visual Kinematic Chain Prediction

要約

多様なデータセットから汎用モデルを学習することは、機械学習において大きな成功を収めている。しかし、ロボット工学においては、既存のマルチタスク学習手法は、通常、単一のロボットと作業空間に制約されている。一方、RT-Xのような最近の研究は、多様な環境における異なる行動空間間のギャップを手動で埋めるために、非自明な行動正規化手順を必要とする。本論文では、多様な環境におけるロボット学習のための準静的行動の正確で普遍的な表現として、ビジュアルキネマティクスチェーンを提案する。ビジュアルキネマティクスチェーンは、ロボットのモデルとカメラパラメータから自動的に得られるため、手動による調整が不要である。我々は、任意の数のカメラ視点をサポートする畳み込みのないアーキテクチャであり、最適な点セットマッチングを通して運動学的構造を予測するという単一の目的で学習されるVisual Kinematics Transformer (VKT)を提案する。我々は、Calvin、RLBench、Open-X、および実際のロボット操作タスクにおいて、一般的なエージェントとしてBC変換器よりもVKTの方が優れていることを実証する。ビデオデモはhttps://mlzxy.github.io/visual-kinetic-chain。

要約(オリジナル)

Learning general-purpose models from diverse datasets has achieved great success in machine learning. In robotics, however, existing methods in multi-task learning are typically constrained to a single robot and workspace, while recent work such as RT-X requires a non-trivial action normalization procedure to manually bridge the gap between different action spaces in diverse environments. In this paper, we propose the visual kinematics chain as a precise and universal representation of quasi-static actions for robot learning over diverse environments, which requires no manual adjustment since the visual kinematic chains can be automatically obtained from the robot’s model and camera parameters. We propose the Visual Kinematics Transformer (VKT), a convolution-free architecture that supports an arbitrary number of camera viewpoints, and that is trained with a single objective of forecasting kinematic structures through optimal point-set matching. We demonstrate the superior performance of VKT over BC transformers as a general agent on Calvin, RLBench, Open-X, and real robot manipulation tasks. Video demonstrations can be found at https://mlzxy.github.io/visual-kinetic-chain.

arxiv情報

著者 Xinyu Zhang,Yuhan Liu,Haonan Chang,Abdeslam Boularias
発行日 2024-10-02 19:43:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO パーマリンク