VIP: Vision Instructed Pre-training for Robotic Manipulation

要約

ロボット操作におけるトレーニングデータのスケーリングの有効性はまだ限られています。
操作の主な課題は、タスクが多様であり、タスクターゲットが明確に指定されていない場合、訓練されたポリシーが混乱することです。
既存の作品は、主にターゲットを説明するためにテキスト命令に依存しています。
ただし、現在のロボットデータは、テキストの指導を効果的に理解するためのポリシーを訓練できないことを明らかにし、ビジョンははるかに理解しやすいことを明らかにしています。
したがって、ターゲットを指定するためにビジョン命令を利用することを紹介します。
簡単な実装は、現在の観察と将来のイメージをリンクする中間アクションを予測するポリシーをトレーニングすることです。
それにもかかわらず、単一の将来の画像では、タスクのターゲットを詳細に不十分に説明していません。
この問題を処理するために、より詳細な情報を提供するために、スパースポイントフローを使用することを提案します。
広範なタスクは、実際の環境とシミュレートされた環境に基づいて設計されており、Vision Pre-Training(VIP)メソッドの有効性を評価します。
結果は、VIPが多様なタスクのパフォーマンスを大幅に改善し、派生したポリシーが「密閉されたボトルの蓋を開く」などの競争力のあるタスクを完了することができることを示しています。

要約(オリジナル)

The effectiveness of scaling up training data in robotic manipulation is still limited. A primary challenge in manipulation is the tasks are diverse, and the trained policy would be confused if the task targets are not specified clearly. Existing works primarily rely on text instruction to describe targets. However, we reveal that current robotic data cannot train policies to understand text instruction effectively, and vision is much more comprehensible. Therefore, we introduce utilizing vision instruction to specify targets. A straightforward implementation is training a policy to predict the intermediate actions linking the current observation and a future image. Nevertheless, a single future image does not describe the task target in insufficient detail. To handle this problem, we propose to use sparse point flows to provide more detailed information. Extensive tasks are designed based on real and simulated environments to evaluate the effectiveness of our vision instructed pre-training (VIP) method. The results indicate VIP improves the performance on diverse tasks significantly, and the derived policy can complete competitive tasks like “opening the lid of a tightly sealed bottle”.

arxiv情報

著者 Zhuoling Li,Liangliang Ren,Jinrong Yang,Yong Zhao,Xiaoyang Wu,Zhenhua Xu,Xiang Bai,Hengshuang Zhao
発行日 2025-02-11 17:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク