要約
不確実な部分観察から多様な器用な把握を総合することは、物理的知性の実施形態にとって重要であるが、困難な課題である。
生成的把握合成に関するこれまでの研究では、複雑な把握分布を正確に捉えたり、構造化されていない、部分的に知覚されることが多い現実における形状の不確実性について推論したりすることができませんでした。
この研究では、知覚の不確実性を内省的に処理し、未知のオブジェクトの形状を認識してパフォーマンスの低下を回避しながら、多指の手の多様な把握を生成できる新しいモデルを紹介します。
具体的には、正規化フロー (NF) に基づいて深層潜在変数モデル (DLVM) を考案し、多様な把握をモデル化するための階層的で表現力豊かな潜在表現を促進します。
私たちのモデル設計は、生成的把握における一般的な代替手段、つまり、モード崩壊や指定ミスによる以前の問題によってパフォーマンスが制限される条件付き変分オートエンコーダー (cVAE) の典型的な落とし穴を打ち消しています。
さらに、結果として得られる特徴階層と正確な流れの尤度計算により、モデルに形状を意識した内省機能が与えられ、部分点群の形状の不確実性を定量化し、新しい形状の物体を検出できるようになります。
この情報を識別把握評価器と融合し、把握評価のための新しいハイブリッド方法を促進することで、さらにパフォーマンスの向上を実現します。
包括的なシミュレーションおよび現実世界の実験により、提案されたアイデアが拡散モデルを含む強力なベースラインに対して優れたパフォーマンスとより高い実行時効率を獲得することが示されています。
また、現実世界の雑然とした場所や限られた作業スペースの中で物体を把握するための、多様性の向上による大きな利点も実証しました。
要約(オリジナル)
Synthesizing diverse dexterous grasps from uncertain partial observation is an important yet challenging task for physically intelligent embodiments. Previous works on generative grasp synthesis fell short of precisely capturing the complex grasp distribution and reasoning about shape uncertainty in the unstructured and often partially perceived reality. In this work, we introduce a novel model that can generate diverse grasps for a multi-fingered hand while introspectively handling perceptual uncertainty and recognizing unknown object geometry to avoid performance degradation. Specifically, we devise a Deep Latent Variable Model (DLVM) based on Normalizing Flows (NFs), facilitating hierarchical and expressive latent representation for modeling versatile grasps. Our model design counteracts typical pitfalls of its popular alternative in generative grasping, i.e., conditional Variational Autoencoders (cVAEs) whose performance is limited by mode collapse and miss-specified prior issues. Moreover, the resultant feature hierarchy and the exact flow likelihood computation endow our model with shape-aware introspective capabilities, enabling it to quantify the shape uncertainty of partial point clouds and detect objects of novel geometry. We further achieve performance gain by fusing this information with a discriminative grasp evaluator, facilitating a novel hybrid way for grasp evaluation. Comprehensive simulated and real-world experiments show that the proposed idea gains superior performance and higher run-time efficiency against strong baselines, including diffusion models. We also demonstrate substantial benefits of greater diversity for grasping objects in clutter and a confined workspace in the real world.
arxiv情報
著者 | Qian Feng,Jianxiang Feng,Zhaopeng Chen,Rudolph Triebel,Alois Knoll |
発行日 | 2024-12-18 09:07:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google