要約
シングルビューでリアルタイムに掴みを生成・評価する器用な掴み合成手法DexGanGraspを紹介します。
DexGanGrasp は、巧みな把握を生成するための条件付き敵対的生成ネットワーク (cGANs) ベースの DexGenerator と、これらの把握の安定性を評価するためのディスクリミネーターのような DexEvalautor で構成されています。
広範なシミュレーションと実世界の実験により、提案手法の有効性が実証され、実世界の評価ではベースラインの FFHNet を 18.57% 高い成功率で上回りました。
DexGanGrasp を DexAfford-Prompt にさらに拡張します。これは、マルチモーダル大規模言語モデル (MLLM) とビジョン言語モデル (VLM) を活用して器用に把握するためのオープン語彙アフォーダンス基礎パイプラインであり、実際の展開を成功させてタスク指向の把握を実現します。
要約(オリジナル)
We introduce DexGanGrasp, a dexterous grasping synthesis method that generates and evaluates grasps with single view in real time. DexGanGrasp comprises a Conditional Generative Adversarial Networks (cGANs)-based DexGenerator to generate dexterous grasps and a discriminator-like DexEvalautor to assess the stability of these grasps. Extensive simulation and real-world expriments showcases the effectiveness of our proposed method, outperforming the baseline FFHNet with an 18.57% higher success rate in real-world evaluation. We further extend DexGanGrasp to DexAfford-Prompt, an open-vocabulary affordance grounding pipeline for dexterous grasping leveraging Multimodal Large Language Models (MLLMs) and Vision Language Models (VLMs), to achieve task-oriented grasping with successful real-world deployments.
arxiv情報
著者 | Qian Feng,David S. Martinez Lema,Mohammadhossein Malmir,Hang Li,Jianxiang Feng,Zhaopeng Chen,Alois Knoll |
発行日 | 2024-07-24 15:17:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google