要約
ロボット工学において、多指の手による多様かつ正確な把握を統合することは、重要かつ困難な課題です。
生成モデリングに焦点を当てたこれまでの取り組みでは、マルチモーダルな高次元の把握分布を正確に捉えるには至っていませんでした。
これに対処するために、複雑な確率分布を学習するための表現力豊かなモデルである正規化フロー (NF) に基づく特別な種類の深層生成モデル (DGM) を活用することを提案します。
具体的には、FFHFlow-cnf と呼ばれる単一の条件付き NF (cNF) を直接適用して、不完全な点群で条件付けされた把握分布を学習することにより、多様性の有望な改善が初めて観察されました。
ただし、潜在空間の表現力が制限されているため、パフォーマンスの向上が限られていることも認識しました。
これは、新しいフローベースの深層潜在変数モデル (DLVM)、すなわち FFHFlow-lvm を開発する動機となりました。これは、より合理的な潜在特徴を促進し、目に見えないオブジェクトの多様かつ正確な把握合成の両方につながります。
変分オートエンコーダ (VAE) とは異なり、提案された DLVM は、通常等方性ガウスに制限される事前分布と尤度分布に 2 つの cNF を活用することで、モード崩壊や事前分布の誤指定などの典型的な落とし穴に対処します。
シミュレーションと実際のロボットのシナリオにおける包括的な実験により、私たちの方法が VAE ベースラインよりも正確で多様な把握を生成できることが実証されました。
さらに、リアルタイム アプリケーションに対する高い可能性を明らかにするために、実行時の比較が行われます。
要約(オリジナル)
Synthesizing diverse and accurate grasps with multi-fingered hands is an important yet challenging task in robotics. Previous efforts focusing on generative modeling have fallen short of precisely capturing the multi-modal, high-dimensional grasp distribution. To address this, we propose exploiting a special kind of Deep Generative Model (DGM) based on Normalizing Flows (NFs), an expressive model for learning complex probability distributions. Specifically, we first observed an encouraging improvement in diversity by directly applying a single conditional NFs (cNFs), dubbed FFHFlow-cnf, to learn a grasp distribution conditioned on the incomplete point cloud. However, we also recognized limited performance gains due to restricted expressivity in the latent space. This motivated us to develop a novel flow-based d Deep Latent Variable Model (DLVM), namely FFHFlow-lvm, which facilitates more reasonable latent features, leading to both diverse and accurate grasp synthesis for unseen objects. Unlike Variational Autoencoders (VAEs), the proposed DLVM counteracts typical pitfalls such as mode collapse and mis-specified priors by leveraging two cNFs for the prior and likelihood distributions, which are usually restricted to being isotropic Gaussian. Comprehensive experiments in simulation and real-robot scenarios demonstrate that our method generates more accurate and diverse grasps than the VAE baselines. Additionally, a run-time comparison is conducted to reveal its high potential for real-time applications.
arxiv情報
著者 | Qian Feng,Jianxiang Feng,Zhaopeng Chen,Rudolph Triebel,Alois Knoll |
発行日 | 2024-07-21 13:33:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google