Learning visual-based deformable object rearrangement with local graph neural networks

要約

変形可能なオブジェクトの目標条件付き再配置 (例: ロープを真っ直ぐにする、布を折りたたむ) は、最も一般的な変形可能な操作タスクの 1 つであり、ロボットは視覚的な観察だけで変形可能なオブジェクトを所定の目標構成に再配置する必要があります。
これらのタスクは通常、変形可能な構成空間の高次元性と、変形可能なダイナミクスに固有の根底にある複雑さ、非線形性、および不確実性という 2 つの主要な課題に直面します。
これらの課題に対処するために、一連のキーポイントとその相互作用を使用して変形可能なオブジェクトの状態を効率的にモデル化できる新しい表現戦略を提案します。
さらに、ローカル グラフ ニューラル ネットワーク (GNN) を提案します。これは、2 つの動的グラフを構築および更新することで、変形可能な再配置ダイナミクスを共同モデル化し、最適な操作アクション (ピック アンド プレイスなど) を推論するための軽量ローカル GNN 学習です。
提案された動的グラフ表現が変形可能な再配置ダイナミクスのモデル化において優れた表現力を示すことを実証するために、シミュレーション実験と実際の実験の両方が行われました。
私たちの方法は、シミュレーション実験における最先端の方法よりも、さまざまな変形可能な再配置タスクではるかに高い成功率 (平均 96.3%) に達します。
さらに、私たちの方法は最先端の方法よりもはるかに軽量で、推論時間が 60% 短くなります。
また、私たちの手法がマルチタスク学習シナリオで良好に機能し、キーポイント検出器を微調整するだけで平均 95% の成功率で現実世界のアプリケーションに移行できることも実証します。

要約(オリジナル)

Goal-conditioned rearrangement of deformable objects (e.g. straightening a rope and folding a cloth) is one of the most common deformable manipulation tasks, where the robot needs to rearrange a deformable object into a prescribed goal configuration with only visual observations. These tasks are typically confronted with two main challenges: the high dimensionality of deformable configuration space and the underlying complexity, nonlinearity and uncertainty inherent in deformable dynamics. To address these challenges, we propose a novel representation strategy that can efficiently model the deformable object states with a set of keypoints and their interactions. We further propose local-graph neural network (GNN), a light local GNN learning to jointly model the deformable rearrangement dynamics and infer the optimal manipulation actions (e.g. pick and place) by constructing and updating two dynamic graphs. Both simulated and real experiments have been conducted to demonstrate that the proposed dynamic graph representation shows superior expressiveness in modeling deformable rearrangement dynamics. Our method reaches much higher success rates on a variety of deformable rearrangement tasks (96.3% on average) than state-of-the-art method in simulation experiments. Besides, our method is much more lighter and has a 60% shorter inference time than state-of-the-art methods. We also demonstrate that our method performs well in the multi-task learning scenario and can be transferred to real-world applications with an average success rate of 95% by solely fine tuning a keypoint detector.

arxiv情報

著者 Yuhong Deng,Xueqian Wang,Lipeng chen
発行日 2023-10-16 11:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク