要約
限られた知識、またはまったく知識がない状態で物体を把握することは、支援ロボット工学において非常に重要なスキルです。
それでも、この一般的な状況では、特に部分的な観察性と複数の指の手での多用途な把握に関してのみ、未解決の問題が残されています。
我々は、単一の深度画像に基づく形状完了モジュールと、その後に予測されたオブジェクトの形状に基づく把握予測モジュールで構成される、新規で高速かつ忠実度の高い深層学習パイプラインを紹介します。
形状補完ネットワークは VQDIF に基づいており、任意のクエリ ポイントでの空間占有値を予測します。
把握予測器として、最初に自己回帰モデルを使用して手のポーズを生成し、次にポーズごとに指の関節構成を回帰する 2 段階のアーキテクチャを使用します。
重要な要素は、十分なデータの現実性と拡張性、そしてトレーニング中の困難なケースへの特別な注意であることが判明しました。
物理的なロボット プラットフォームでの実験では、単一視点からの深度画像に基づいて、さまざまな家庭用品をうまく把握できることが実証されています。
パイプライン全体は高速で、オブジェクトの形状の完成 (0.7 秒) と 1000 個の把握の生成 (0.3 秒) にかかる時間はわずか約 1 秒です。
要約(オリジナル)
Grasping objects with limited or no prior knowledge about them is a highly relevant skill in assistive robotics. Still, in this general setting, it has remained an open problem, especially when it comes to only partial observability and versatile grasping with multi-fingered hands. We present a novel, fast, and high fidelity deep learning pipeline consisting of a shape completion module that is based on a single depth image, and followed by a grasp predictor that is based on the predicted object shape. The shape completion network is based on VQDIF and predicts spatial occupancy values at arbitrary query points. As grasp predictor, we use our two-stage architecture that first generates hand poses using an autoregressive model and then regresses finger joint configurations per pose. Critical factors turn out to be sufficient data realism and augmentation, as well as special attention to difficult cases during training. Experiments on a physical robot platform demonstrate successful grasping of a wide range of household objects based on a depth image from a single viewpoint. The whole pipeline is fast, taking only about 1 s for completing the object’s shape (0.7 s) and generating 1000 grasps (0.3 s).
arxiv情報
著者 | Matthias Humt,Dominik Winkelbauer,Ulrich Hillenbrand,Berthold Bäuml |
発行日 | 2023-10-31 10:46:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google