Manipulate by Seeing: Creating Manipulation Controllers from Pre-Trained Representations

要約

視覚表現学習の分野は、過去数年間で爆発的な成長を遂げましたが、ロボット工学におけるその利点は、これまでのところ驚くほど限られています。
以前の作業では、(タスク固有の) ロボット アクション ポリシーを学習するための基礎として、一般的な視覚的表現を使用します (たとえば、動作のクローニングを介して)。
視覚的表現は学習を加速しますが、主に視覚的観察をエンコードするために使用されます。
したがって、行動情報は純粋にロボットのデータから導出する必要があり、収集には費用がかかります。
この作業では、視覚的表現がロボットの動作を直接推測するのに役立つスケーラブルな代替案を提示します。
ビジョンエンコーダーは、画像観測間の関係を、ロボットの動作を効率的に計画するために使用できる距離として (たとえば、内積を埋め込むことによって) 表現することがわかります。
この洞察を運用し、人間が収集したビデオシーケンスの事前トレーニング済み表現を微調整することにより、距離関数とダイナミクス予測子を取得するための単純なアルゴリズムを開発します。
最終的な方法は、さまざまな実世界の操作タスクのスイートで、従来のロボット学習ベースラインを大幅に上回ることができます (例: 70% の成功に対して、ピックプレースでの行動のクローン作成では 50%)。
また、トレーニング中にロボットのデモンストレーションを使用せずに、新しいオブジェクトに一般化することもできます。
学習したポリシーの視覚化については、https://agi-labs.github.io/manipulate-by-seeing/ を確認してください。

要約(オリジナル)

The field of visual representation learning has seen explosive growth in the past years, but its benefits in robotics have been surprisingly limited so far. Prior work uses generic visual representations as a basis to learn (task-specific) robot action policies (e.g. via behavior cloning). While the visual representations do accelerate learning, they are primarily used to encode visual observations. Thus, action information has to be derived purely from robot data, which is expensive to collect! In this work, we present a scalable alternative where the visual representations can help directly infer robot actions. We observe that vision encoders express relationships between image observations as distances (e.g. via embedding dot product) that could be used to efficiently plan robot behavior. We operationalize this insight and develop a simple algorithm for acquiring a distance function and dynamics predictor, by fine-tuning a pre-trained representation on human collected video sequences. The final method is able to substantially outperform traditional robot learning baselines (e.g. 70% success v.s. 50% for behavior cloning on pick-place) on a suite of diverse real-world manipulation tasks. It can also generalize to novel objects, without using any robot demonstrations during train time. For visualizations of the learned policies please check: https://agi-labs.github.io/manipulate-by-seeing/

arxiv情報

著者 Jianren Wang,Sudeep Dasari,Mohan Kumar Srirama,Shubham Tulsiani,Abhinav Gupta
発行日 2023-03-15 02:19:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク