要約
日常生活で支援ロボットを使用するには、2D デバイスなどの一般的なデバイスを備えた遠隔制御システムが、いつでもどこでも意図どおりにロボットを制御するのに役立ちます。
手描きのスケッチは、2D デバイスでロボットを制御する直感的な方法の 1 つです。
ただし、同様のスケッチでもシーンごとに異なる意図があるため、既存の作品にはスケッチのセマンティクスを設定するための追加のモダリティが必要です。
そのため、ユーザーにとって煩雑な操作が必要となり、ユーザビリティの低下につながります。
本稿では、ユーザが手描きしたスケッチを指示としてロボットを制御する遠隔操作システムであるSketch-MoMaを提案する。
私たちは、視覚言語モデル (VLM) を使用して、観察画像に重ね合わされたユーザー指定のスケッチを理解し、描かれた形状とロボットの低レベルのタスクを推測します。
スケッチと生成された形状は、生成された低レベルのタスクの認識と動作計画に利用され、正確かつ直感的な操作が可能になります。
7 つのタスクと 5 つのスケッチ形状を備えた最先端の VLM を使用して、アプローチを検証します。
また、私たちのアプローチが、握り方や回転量などの詳細な動作を効果的に指定できることを示します。
さらに、14 人の参加者によるユーザー実験を通じて、既存の 2D インターフェイスと比較して、私たちのアプローチの使いやすさを示します。
要約(オリジナル)
To use assistive robots in everyday life, a remote control system with common devices, such as 2D devices, is helpful to control the robots anytime and anywhere as intended. Hand-drawn sketches are one of the intuitive ways to control robots with 2D devices. However, since similar sketches have different intentions from scene to scene, existing work needs additional modalities to set the sketches’ semantics. This requires complex operations for users and leads to decreasing usability. In this paper, we propose Sketch-MoMa, a teleoperation system using the user-given hand-drawn sketches as instructions to control a robot. We use Vision-Language Models (VLMs) to understand the user-given sketches superimposed on an observation image and infer drawn shapes and low-level tasks of the robot. We utilize the sketches and the generated shapes for recognition and motion planning of the generated low-level tasks for precise and intuitive operations. We validate our approach using state-of-the-art VLMs with 7 tasks and 5 sketch shapes. We also demonstrate that our approach effectively specifies the detailed motions, such as how to grasp and how much to rotate. Moreover, we show the competitive usability of our approach compared with the existing 2D interface through a user experiment with 14 participants.
arxiv情報
著者 | Kosei Tanada,Yuka Iwanaga,Masayoshi Tsuchinaga,Yuji Nakamura,Takemitsu Mori,Remi Sakai,Takashi Yamamoto |
発行日 | 2025-01-07 13:41:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google