要約
ビジョンベースの変形可能なオブジェクトの操作は、ロボット操作における困難な問題であり、ロボットが視覚的な観察のみから目的の状態につながる一連の操作アクションを推測する必要があります。
これまでのほとんどの研究では、この問題に目標条件付きの方法で対処し、目標イメージを適応させてタスクを指定していましたが、これは実用的でも効率的でもありません。
したがって、自然言語仕様を適応させ、言語条件付き変形可能オブジェクト操作ポリシー学習フレームワークを提案しました。
最初に、統合された Transformer ベースのアーキテクチャを設計して、マルチモーダル データを理解し、ピッキングと配置のアクションを出力します。
さらに、操作プロセスにおける変形可能なオブジェクトの非線形ダイナミクスと複雑な構成に取り組むために、目に見える接続性グラフを導入しました。
シミュレートされた実験と実際の実験の両方で、提案された方法が一般的であり、言語条件付きの変形可能なオブジェクト操作ポリシーの学習に効果的であることが実証されています。
私たちの方法は、シミュレーション実験における最先端の方法よりも、さまざまな言語条件付きの変形可能なオブジェクト操作タスクではるかに高い成功率 (平均で 87.3%) を達成します。
さらに、私たちの方法ははるかに軽量で、最先端の方法よりも推論時間が 75.6% 短くなっています。
また、私たちの方法が実際のアプリケーションでうまく機能することも示しています。
補足ビデオは、https://sites.google.com/view/language-deformable にあります。
要約(オリジナル)
Vision-based deformable object manipulation is a challenging problem in robotic manipulation, requiring a robot to infer a sequence of manipulation actions leading to the desired state from solely visual observations. Most previous works address this problem in a goal-conditioned way and adapt the goal image to specify a task, which is not practical or efficient. Thus, we adapted natural language specification and proposed a language-conditioned deformable object manipulation policy learning framework. We first design a unified Transformer-based architecture to understand multi-modal data and output picking and placing action. Besides, we have introduced the visible connectivity graph to tackle nonlinear dynamics and complex configuration of the deformable object in the manipulation process. Both simulated and real experiments have demonstrated that the proposed method is general and effective in language-conditioned deformable object manipulation policy learning. Our method achieves much higher success rates on various language-conditioned deformable object manipulation tasks (87.3% on average) than the state-of-the-art method in simulation experiments. Besides, our method is much lighter and has a 75.6% shorter inference time than state-of-the-art methods. We also demonstrate that our method performs well in real-world applications. Supplementary videos can be found at https://sites.google.com/view/language-deformable.
arxiv情報
| 著者 | Kai Mo,Yuhong Deng,Chongkun Xia,Xueqian Wang |
| 発行日 | 2023-03-02 14:34:22+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google