Click to Grasp: Zero-Shot Precise Manipulation via Visual Diffusion Descriptors

要約

ロボット工学においては、シーンやオブジェクト全体で一般化できる正確な操作が依然として課題となっています。
このタスクに対する現在のアプローチは、顕著な視覚的および/または幾何学的部分のあいまいさを持つオブジェクトを処理するために、相当数のトレーニング インスタンスを用意することに大きく依存しています。
私たちの研究では、ウェブでトレーニングされたテキストから画像への拡散ベースの生成モデルを利用することにより、ゼロショット設定での正確な操作のためのきめの細かいパーツ記述子の基礎を探求しています。
私たちは、高密度の意味部分の対応タスクとして問題を組み立てることによって、この問題に取り組みます。
私たちのモデルは、同じオブジェクトの視覚的に異なるインスタンスのソース イメージからのユーザー定義のクリックを参照として使用して、特定のパーツを操作するためのグリッパー ポーズを返します。
オブジェクトの固有の形状と機能を活用するため、手動による把握のデモンストレーションは必要ありません。
現実世界の卓上シナリオでの実践的な実験により、私たちのアプローチの有効性が検証され、セマンティックを意識したロボット操作を進歩させる可能性が実証されました。
ウェブページ: https://tsagkas.github.io/click2grasp

要約(オリジナル)

Precise manipulation that is generalizable across scenes and objects remains a persistent challenge in robotics. Current approaches for this task heavily depend on having a significant number of training instances to handle objects with pronounced visual and/or geometric part ambiguities. Our work explores the grounding of fine-grained part descriptors for precise manipulation in a zero-shot setting by utilizing web-trained text-to-image diffusion-based generative models. We tackle the problem by framing it as a dense semantic part correspondence task. Our model returns a gripper pose for manipulating a specific part, using as reference a user-defined click from a source image of a visually different instance of the same object. We require no manual grasping demonstrations as we leverage the intrinsic object geometry and features. Practical experiments in a real-world tabletop scenario validate the efficacy of our approach, demonstrating its potential for advancing semantic-aware robotics manipulation. Web page: https://tsagkas.github.io/click2grasp

arxiv情報

著者 Nikolaos Tsagkas,Jack Rome,Subramanian Ramamoorthy,Oisin Mac Aodha,Chris Xiaoxuan Lu
発行日 2024-03-21 16:26:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク