Synthesizing multi-log grasp poses

要約

複数の物体を把握するのは困難な作業です。
これは、林床から木の丸太を集めて林業機械に取り付けるために使用される産業用クレーンマニピュレータのエネルギーとコスト効率の高い運用にとって重要です。
この研究では、物理シミュレーションからの合成データを使用して、データ駆動型モデリングを使用して画像から複数の物体の把握ポーズを推測する方法を検討しました。
私たちは、畳み込みニューラル ネットワークが複数のオブジェクトの把握を合成するために特別にトレーニングできることを示しました。
U-Net モデルは、RGB 深度イメージとインスタンス セグメンテーション マスクを入力として使用して、対応するグラップルの方向と開口部の幅を含む把握マップを出力します。
丸太の山を観察した場合、このモデルを使用して、考えられる掴みポーズを合成および評価し、リフト能力やリーチなどの変化する操作上の制約を考慮しながら、最適なポーズを選択することができます。
これまでに見たことのないデータでテストしたところ、提案されたモデルは 95% の精度で掴みポーズを成功させることができました。

要約(オリジナル)

Multi-object grasping is a challenging task. It is important for energy and cost-efficient operation of industrial crane manipulators, such as those used to collect tree logs off the forest floor and onto forest machines. In this work, we used synthetic data from physics simulations to explore how data-driven modeling can be used to infer multi-object grasp poses from images. We showed that convolutional neural networks can be trained specifically for synthesizing multi-object grasps. Using RGB-Depth images and instance segmentation masks as input, a U-Net model outputs grasp maps with corresponding grapple orientation and opening width. Given an observation of a pile of logs, the model can be used to synthesize and rate the possible grasp poses and select the most suitable one, with the possibility to respect changing operational constraints such as lift capacity and reach. When tested on previously unseen data, the proposed model found successful grasp poses with an accuracy of 95%.

arxiv情報

著者 Arvid Fälldin,Erik Wallin,Tommy Löfstedt,Martin Servin
発行日 2024-03-18 09:55:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク