Synthesizing multi-log grasp poses in cluttered environments

要約

マルチオブジェクトの把握は挑戦的な作業です。
森林床や森林機械から木の丸太を集めるために使用されるものなど、産業用クレーンマニピュレーターのエネルギーと費用効率の高い運用にとって重要です。
この作業では、物理シミュレーションの合成データを使用して、データ駆動型モデリングを使用して画像からのマルチオブジェクトの把握を推測する方法を探りました。
畳み込みニューラルネットワークは、マルチオブジェクトグラップを合成するために特別にトレーニングできることを示しました。
RGB深い画像とインスタンスセグメンテーションマスクを入力として使用して、U-NETモデル出力は、対応するグラップルの向きと開口幅を備えたマップを把握します。
ログの山の観察を考えると、モデルを使用して、可能な把握ポーズを合成して評価し、最も適切なポーズを選択することができます。
以前に見えないデータでテストされた場合、提案されたモデルは、最大96%の精度で成功した把握ポーズを見つけました。

要約(オリジナル)

Multi-object grasping is a challenging task. It is important for energy and cost-efficient operation of industrial crane manipulators, such as those used to collect tree logs from the forest floor and on forest machines. In this work, we used synthetic data from physics simulations to explore how data-driven modeling can be used to infer multi-object grasp poses from images. We showed that convolutional neural networks can be trained specifically for synthesizing multi-object grasps. Using RGB-Depth images and instance segmentation masks as input, a U-Net model outputs grasp maps with the corresponding grapple orientation and opening width. Given an observation of a pile of logs, the model can be used to synthesize and rate the possible grasp poses and select the most suitable one, with the possibility to respect changing operational constraints such as lift capacity and reach. When tested on previously unseen data, the proposed model found successful grasp poses with an accuracy up to 96%.

arxiv情報

著者 Arvid Fälldin,Tommy Löfstedt,Tobias Semberg,Erik Wallin,Martin Servin
発行日 2025-03-21 09:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク