要約
大規模言語モデルとビジョン言語モデル (VLM) の開発により、さまざまな分野でロボット システムの使用が増加しています。
ただし、これらのモデルを現実世界のロボット タスクに効果的に統合することが重要な課題です。
当社は、VLM のプロンプト技術と 3D 検出を組み合わせて、多様で動的な環境で製品ピッキング作業を実行する、SuctionPrompt と呼ばれる多用途ロボット システムを開発しました。
私たちの手法は、ロボットが新しい環境で物体に近づいて操作できるようにするために、3D 空間情報と適応的行動計画を統合することの重要性を強調しています。
検証実験では、システムは75.4%の精度で吸引ポイントを選択し、一般的なアイテムのピッキング成功率は65.0%を達成しました。
この研究では、単純な 3D 処理であっても、ロボット操作タスクにおける VLM の有効性が強調されています。
要約(オリジナル)
The development of large language models and vision-language models (VLMs) has resulted in the increasing use of robotic systems in various fields. However, the effective integration of these models into real-world robotic tasks is a key challenge. We developed a versatile robotic system called SuctionPrompt that utilizes prompting techniques of VLMs combined with 3D detections to perform product-picking tasks in diverse and dynamic environments. Our method highlights the importance of integrating 3D spatial information with adaptive action planning to enable robots to approach and manipulate objects in novel environments. In the validation experiments, the system accurately selected suction points 75.4%, and achieved a 65.0% success rate in picking common items. This study highlights the effectiveness of VLMs in robotic manipulation tasks, even with simple 3D processing.
arxiv情報
著者 | Tomohiro Motoda,Takahide Kitamura,Ryo Hanai,Yukiyasu Domae |
発行日 | 2024-10-31 05:25:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google