Sketch-MoMa: Teleoperation for Mobile Manipulator via Interpretation of Hand-Drawn Sketches


日常生活で支援ロボットを使用するには、2D デバイスなどの一般的なデバイスを備えた遠隔制御システムが、いつでもどこでも意図どおりにロボットを制御するのに役立ちます。
手描きのスケッチは、2D デバイスでロボットを制御する直感的な方法の 1 つです。
私たちは、視覚言語モデル (VLM) を使用して、観察画像に重ね合わされたユーザー指定のスケッチを理解し、描かれた形状とロボットの低レベルのタスクを推測します。
7 つのタスクと 5 つのスケッチ形状を備えた最先端の VLM を使用して、アプローチを検証します。
さらに、14 人の参加者によるユーザー実験を通じて、既存の 2D インターフェイスと比較して、私たちのアプローチの使いやすさを示します。


To use assistive robots in everyday life, a remote control system with common devices, such as 2D devices, is helpful to control the robots anytime and anywhere as intended. Hand-drawn sketches are one of the intuitive ways to control robots with 2D devices. However, since similar sketches have different intentions from scene to scene, existing work needs additional modalities to set the sketches’ semantics. This requires complex operations for users and leads to decreasing usability. In this paper, we propose Sketch-MoMa, a teleoperation system using the user-given hand-drawn sketches as instructions to control a robot. We use Vision-Language Models (VLMs) to understand the user-given sketches superimposed on an observation image and infer drawn shapes and low-level tasks of the robot. We utilize the sketches and the generated shapes for recognition and motion planning of the generated low-level tasks for precise and intuitive operations. We validate our approach using state-of-the-art VLMs with 7 tasks and 5 sketch shapes. We also demonstrate that our approach effectively specifies the detailed motions, such as how to grasp and how much to rotate. Moreover, we show the competitive usability of our approach compared with the existing 2D interface through a user experiment with 14 participants.


著者 Kosei Tanada,Yuka Iwanaga,Masayoshi Tsuchinaga,Yuji Nakamura,Takemitsu Mori,Remi Sakai,Takashi Yamamoto
発行日 2024-12-26 10:17:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.RO パーマリンク