Manipulate by Seeing: Creating Manipulation Controllers from Pre-Trained Representations

要約

視覚表現学習の分野はここ数年で爆発的な成長を遂げていますが、ロボット工学におけるその利点はこれまでのところ驚くほど限られています。
これまでの研究では、(タスク固有の)ロボットの動作ポリシーを学習するための基礎として一般的な視覚表現が使用されていました(たとえば、動作のクローン作成を介して)。
視覚的表現は学習を促進しますが、主に視覚的な観察をコード化するために使用されます。
したがって、アクション情報は純粋にロボット データから導き出す必要があり、収集にはコストがかかります。
この研究では、視覚的表現がロボットの動作を直接推測するのに役立つ、スケーラブルな代替手段を紹介します。
ビジョンエンコーダは、ロボットの動作を効率的に計画するために使用できる距離として(たとえば、埋め込みドット積を介して)画像観察間の関係を表現することを観察しました。
私たちはこの洞察を活用し、人間が収集したビデオ シーケンスの事前トレーニング済み表現を微調整することにより、距離関数とダイナミクス予測子を取得するための単純なアルゴリズムを開発します。
最終的な方法は、一連の現実世界の多様な操作タスクにおいて、従来のロボット学習のベースライン (例: ピックプレイスの動作クローン作成の成功率 70% 対 50%) を大幅に上回ることができます。
また、電車の時間中にロボットのデモンストレーションを使用せずに、新しいオブジェクトに一般化することもできます。
学習したポリシーの視覚化については、https://agi-labs.github.io/manipulate-by-seeing/ を確認してください。

要約(オリジナル)

The field of visual representation learning has seen explosive growth in the past years, but its benefits in robotics have been surprisingly limited so far. Prior work uses generic visual representations as a basis to learn (task-specific) robot action policies (e.g., via behavior cloning). While the visual representations do accelerate learning, they are primarily used to encode visual observations. Thus, action information has to be derived purely from robot data, which is expensive to collect! In this work, we present a scalable alternative where the visual representations can help directly infer robot actions. We observe that vision encoders express relationships between image observations as distances (e.g., via embedding dot product) that could be used to efficiently plan robot behavior. We operationalize this insight and develop a simple algorithm for acquiring a distance function and dynamics predictor, by fine-tuning a pre-trained representation on human collected video sequences. The final method is able to substantially outperform traditional robot learning baselines (e.g., 70% success v.s. 50% for behavior cloning on pick-place) on a suite of diverse real-world manipulation tasks. It can also generalize to novel objects, without using any robot demonstrations during train time. For visualizations of the learned policies please check: https://agi-labs.github.io/manipulate-by-seeing/.

arxiv情報

著者 Jianren Wang,Sudeep Dasari,Mohan Kumar Srirama,Shubham Tulsiani,Abhinav Gupta
発行日 2023-08-15 14:38:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク