Scaling Manipulation Learning with Visual Kinematic Chain Prediction

要約

多様なデータセットから汎用モデルを学習することは、機械学習において大きな成功を収めています。
しかし、ロボット工学では、マルチタスク学習における既存の手法は通常、単一のロボットとワークスペースに制限されていますが、RT-X などの最近の研究では、多様な環境における異なるアクション スペース間のギャップを手動で埋めるために、重要なアクション正規化手順が必要です。

この論文では、多様な環境でのロボット学習のための準静的動作の正確かつ普遍的な表現として視覚運動連鎖を提案します。視覚運動連鎖はロボットのモデルとカメラパラメータから自動的に取得できるため、手動調整は必要ありません。
我々は、任意の数のカメラ視点をサポートし、最適な点セットのマッチングを通じて運動学的構造を予測するという単一の目的でトレーニングされる畳み込みフリーのアーキテクチャである Visual Kinematics Transformer (VKT) を提案します。
当社は、Calvin、RLBench、Open-X、および実際のロボット操作タスクの一般エージェントとして、BC トランスフォーマーよりも VKT の優れたパフォーマンスを実証します。
ビデオデモは https://mlzxy.github.io/visual-kinetic-chain でご覧いただけます。

要約(オリジナル)

Learning general-purpose models from diverse datasets has achieved great success in machine learning. In robotics, however, existing methods in multi-task learning are typically constrained to a single robot and workspace, while recent work such as RT-X requires a non-trivial action normalization procedure to manually bridge the gap between different action spaces in diverse environments. In this paper, we propose the visual kinematics chain as a precise and universal representation of quasi-static actions for robot learning over diverse environments, which requires no manual adjustment since the visual kinematic chains can be automatically obtained from the robot’s model and camera parameters. We propose the Visual Kinematics Transformer (VKT), a convolution-free architecture that supports an arbitrary number of camera viewpoints, and that is trained with a single objective of forecasting kinematic structures through optimal point-set matching. We demonstrate the superior performance of VKT over BC transformers as a general agent on Calvin, RLBench, Open-X, and real robot manipulation tasks. Video demonstrations can be found at https://mlzxy.github.io/visual-kinetic-chain.

arxiv情報

著者 Xinyu Zhang,Yuhan Liu,Haonan Chang,Abdeslam Boularias
発行日 2024-06-12 03:10:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク