要約
ヒューマン ロボット インタラクション (HRI) には幅広い共同作業が含まれますが、ハンドオーバーは最も基本的な作業の 1 つです。
ロボットが人間の環境にさらに統合されるにつれて、人間に物を渡すのを支援するサービスロボットの可能性がますます有望になっています。
ロボットから人間への (R2H) ハンドオーバーでは、人間が好む把握領域への干渉を回避し、作業スペースへの侵入を最小限に抑える必要があるため、最適な把握を選択することが成功のために非常に重要です。
既存の方法では、幾何学的情報が不十分に考慮されているか、データ駆動型のアプローチに依存しているため、さまざまなオブジェクトにわたって一般化するのが困難なことがよくあります。
これらの制限に対処するために、意味論的情報と幾何学的情報を組み合わせて最適なハンドオーバー把握を生成する新しいゼロショット システムを提案します。
私たちの方法では、まず視覚言語モデル (VLM) からの意味論的な知識を使用して把握領域を特定し、カスタマイズされた視覚的プロンプトを組み込むことで、領域グラウンディングのより細かい粒度を実現します。
次に、人間の使いやすさを最大限に高め、干渉を回避するために、把握距離とアプローチ角度に基づいて把握が選択されます。
私たちはアブレーション研究と現実世界の比較実験を通じてアプローチを検証します。
結果は、私たちのシステムがハンドオーバーの成功率を向上させ、よりユーザー好みの対話エクスペリエンスを提供することを示しています。
ビデオや付録などは、https://sites.google.com/view/vlm-handover/ でご覧いただけます。
要約(オリジナル)
Human-robot interaction (HRI) encompasses a wide range of collaborative tasks, with handover being one of the most fundamental. As robots become more integrated into human environments, the potential for service robots to assist in handing objects to humans is increasingly promising. In robot-to-human (R2H) handover, selecting the optimal grasp is crucial for success, as it requires avoiding interference with the humans preferred grasp region and minimizing intrusion into their workspace. Existing methods either inadequately consider geometric information or rely on data-driven approaches, which often struggle to generalize across diverse objects. To address these limitations, we propose a novel zero-shot system that combines semantic and geometric information to generate optimal handover grasps. Our method first identifies grasp regions using semantic knowledge from vision-language models (VLMs) and, by incorporating customized visual prompts, achieves finer granularity in region grounding. A grasp is then selected based on grasp distance and approach angle to maximize human ease and avoid interference. We validate our approach through ablation studies and real-world comparison experiments. Results demonstrate that our system improves handover success rates and provides a more user-preferred interaction experience. Videos, appendixes and more are available at https://sites.google.com/view/vlm-handover/.
arxiv情報
著者 | Jiangshan Liu,Wenlong Dong,Jiankun Wang,Max Q. -H. Meng |
発行日 | 2024-09-26 08:16:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google