Learning Language-Conditioned Deformable Object Manipulation with Graph Dynamics

要約

変形可能なオブジェクト操作のマルチタスク学習は、ロボット操作における困難な問題です。
これまでの研究のほとんどは、目標条件付きの方法でこの問題に対処し、さまざまなタスクを指定するように目標画像を適応させるため、マルチタスクの学習パフォーマンスが制限され、新しいタスクに一般化できません。
したがって、変形可能なオブジェクト操作タスクを指定するために言語命令を適応させ、学習フレームワークを提案します。
まず、マルチモーダル データを理解し、ピッキング アンド プレース アクションを出力するために、統合された Transformer ベースのアーキテクチャを設計します。
さらに、変形可能なオブジェクトの非線形ダイナミクスと複雑な構成に取り組むために、可視接続グラフを導入しました。
シミュレーション実験と実際の実験の両方で、提案された方法が効果的であり、目に見えない命令やタスクに一般化できることが実証されました。
最先端の方法と比較して、私たちの方法は高い成功率 (平均 87.2%) を達成し、推論時間が 75.6% 短くなります。
また、私たちの方法が実際の実験で良好に機能することも示します。

要約(オリジナル)

Multi-task learning of deformable object manipulation is a challenging problem in robot manipulation. Most previous works address this problem in a goal-conditioned way and adapt goal images to specify different tasks, which limits the multi-task learning performance and can not generalize to new tasks. Thus, we adapt language instruction to specify deformable object manipulation tasks and propose a learning framework. We first design a unified Transformer-based architecture to understand multi-modal data and output picking and placing action. Besides, we have introduced the visible connectivity graph to tackle nonlinear dynamics and complex configuration of the deformable object. Both simulated and real experiments have demonstrated that the proposed method is effective and can generalize to unseen instructions and tasks. Compared with the state-of-the-art method, our method achieves higher success rates (87.2% on average) and has a 75.6% shorter inference time. We also demonstrate that our method performs well in real-world experiments.

arxiv情報

著者 Yuhong Deng,Kai Mo,Chongkun Xia,Xueqian Wang
発行日 2024-01-29 12:07:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク