要約
把持は、環境と相互作用するための基本的なスキルである。しかし、この能力は(例えば障害のために)困難な場合がある。ウェアラブル・ロボットは手の機能を強化したり回復させたりすることができ、最近の進歩ではコンピュータ・ビジョンを活用して把持能力を向上させている。しかし、透明な物体を把持することは、視覚的コントラストが低く、奥行きの手がかりが曖昧であるため、依然として困難です。さらに、透明な物体を把持するために、触覚や聴覚のフィードバックを組み込んだマルチモーダル制御戦略が研究されているが、視覚とこれらのモダリティの統合は未開発のままである。本論文では、RGBデータ、奥行きデータ、および聴覚信号を融合することにより、透明物体のためのウェアラブルソフト外骨格グローブにおける把持支援を強化するために設計されたマルチモーダルフレームワークであるMultiClearを紹介する。この外骨格グローブは、腱駆動アクチュエータとRGB-Dカメラおよび内蔵マイクを統合している。高精度かつ適応的な制御を実現するために、階層的制御アーキテクチャを提案する。提案する階層制御アーキテクチャでは、高位制御層が文脈認識を提供し、中位制御層がマルチモーダル感覚入力を処理し、低位制御が微調整された把持調整のためのPIDモータ制御を実行する。透明な物体のセグメンテーションの課題は、ゼロショットセグメンテーションのためのビジョン基盤モデルを導入することによって管理された。提案システムは70.37%の把持能力を達成し、透明物体操作における有効性を実証した。
要約(オリジナル)
Grasping is a fundamental skill for interacting with the environment. However, this ability can be difficult for some (e.g. due to disability). Wearable robotic solutions can enhance or restore hand function, and recent advances have leveraged computer vision to improve grasping capabilities. However, grasping transparent objects remains challenging due to their poor visual contrast and ambiguous depth cues. Furthermore, while multimodal control strategies incorporating tactile and auditory feedback have been explored to grasp transparent objects, the integration of vision with these modalities remains underdeveloped. This paper introduces MultiClear, a multimodal framework designed to enhance grasping assistance in a wearable soft exoskeleton glove for transparent objects by fusing RGB data, depth data, and auditory signals. The exoskeleton glove integrates a tendon-driven actuator with an RGB-D camera and a built-in microphone. To achieve precise and adaptive control, a hierarchical control architecture is proposed. For the proposed hierarchical control architecture, a high-level control layer provides contextual awareness, a mid-level control layer processes multimodal sensory inputs, and a low-level control executes PID motor control for fine-tuned grasping adjustments. The challenge of transparent object segmentation was managed by introducing a vision foundation model for zero-shot segmentation. The proposed system achieves a Grasping Ability Score of 70.37%, demonstrating its effectiveness in transparent object manipulation.
arxiv情報
著者 | Chen Hu,Timothy Neate,Shan Luo,Letizia Gionfrida |
発行日 | 2025-04-04 11:51:35+00:00 |
arxivサイト | arxiv_id(pdf) |