要約
日常の雑然とした環境でロボットを注意深く操作するには、物体を安定して確実に掴んで配置し、他の物体と誤って衝突しないようにするために、3D シーンを正確に理解する必要があります。
一般に、単一の RGB-D 画像などの限られた入力に基づいて、複雑なシーンのこのような 3D 解釈を構築する必要があります。
単一のビューからシーンの完全なセグメント化された 3D モデルを構築するシステムである SceneComplete について説明します。
これは、高精度の結果を得るために、汎用の事前トレーニング済み知覚モジュール (視覚言語、セグメンテーション、画像修復、画像から 3D への変換、姿勢推定) を構成するための新しいパイプラインを提供します。
私たちは、大規模なベンチマーク データセットのグラウンド トゥルース モデルに関してその精度と有効性を実証し、その正確なオブジェクト全体の再構成により、器用な手などを含む堅牢な把握提案の生成が可能になることを示します。
要約(オリジナル)
Careful robot manipulation in every-day cluttered environments requires an accurate understanding of the 3D scene, in order to grasp and place objects stably and reliably and to avoid mistakenly colliding with other objects. In general, we must construct such a 3D interpretation of a complex scene based on limited input, such as a single RGB-D image. We describe SceneComplete, a system for constructing a complete, segmented, 3D model of a scene from a single view. It provides a novel pipeline for composing general-purpose pretrained perception modules (vision-language, segmentation, image-inpainting, image-to-3D, and pose-estimation) to obtain high-accuracy results. We demonstrate its accuracy and effectiveness with respect to ground-truth models in a large benchmark dataset and show that its accurate whole-object reconstruction enables robust grasp proposal generation, including for a dexterous hand.
arxiv情報
著者 | Aditya Agarwal,Gaurav Singh,Bipasha Sen,Tomás Lozano-Pérez,Leslie Pack Kaelbling |
発行日 | 2024-10-31 05:29:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google