Lightweight Language-driven Grasp Detection using Conditional Consistency Model

要約

言語による把握検出は、さまざまな産業用途を伴うロボット工学において、基本的ではありますが、困難なタスクです。
この研究では、軽量拡散モデルの概念を活用して高速な推論時間を実現する、言語駆動型把握検出の新しいアプローチを紹介します。
拡散プロセスと自然言語による把握プロンプトを統合することにより、私たちの方法は視覚情報とテキスト情報を効果的にエンコードすることができ、テキストクエリとうまく整合する、より正確で汎用性の高い把握位置決めを可能にします。
拡散モデルにおける長い推論時間の問題を克服するために、整合性モデルの条件として画像とテキストの特徴を活用し、推論中のノイズ除去タイムステップの数を減らします。
集中的な実験結果は、私たちの方法が他の最近の把握検出方法や軽量拡散モデルよりも明らかに優れていることを示しています。
さらに、実際のロボット実験でこの方法を検証し、その高速な推論時間機能を実証します。

要約(オリジナル)

Language-driven grasp detection is a fundamental yet challenging task in robotics with various industrial applications. In this work, we present a new approach for language-driven grasp detection that leverages the concept of lightweight diffusion models to achieve fast inference time. By integrating diffusion processes with grasping prompts in natural language, our method can effectively encode visual and textual information, enabling more accurate and versatile grasp positioning that aligns well with the text query. To overcome the long inference time problem in diffusion models, we leverage the image and text features as the condition in the consistency model to reduce the number of denoising timesteps during inference. The intensive experimental results show that our method outperforms other recent grasp detection methods and lightweight diffusion models by a clear margin. We further validate our method in real-world robotic experiments to demonstrate its fast inference time capability.

arxiv情報

著者 Nghia Nguyen,Minh Nhat Vu,Baoru Huang,An Vuong,Ngan Le,Thieu Vo,Anh Nguyen
発行日 2024-07-25 11:39:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク