要約
Visuo-Tactileセンサーは、人間の触覚の知覚をエミュレートすることを目的としており、ロボットがオブジェクトを正確に理解し操作できるようにします。
時間が経つにつれて、多くの細心の注意を払って設計された視覚触覚センサーがロボットシステムに統合されており、さまざまなタスクの完成を支援しています。
ただし、これらの低標準化された視覚触覚センサーの明確なデータ特性は、強力な触覚知覚システムの確立を妨げます。
この問題に対処するための鍵は、統一されたマルチセンサー表現を学習し、それによりセンサーを統合し、それらの間の触覚知識移転を促進することにあると考えています。
この性質の統一された表現を実現するために、4つの異なるVisuo Tactileセンサーから整列したマルチモーダルマルチセンサー触覚データセットであるTacquadを紹介します。これにより、さまざまなセンサーの明示的な統合が可能です。
人間は、テクスチャや圧力の変化などの多様な触覚情報を取得することにより、物理的環境を認識していることを認識して、静的視点と動的な視点の両方から統一されたマルチセンサー表現を学習することをさらに提案します。
触覚画像とビデオを統合することにより、包括的な知覚能力の強化と効果的なクロスセンサー転送を可能にすることを目的としたマルチレベル構造を持つ統一された静的マルチセンサー表現学習フレームワークであるAnyTouchを提示します。
このマルチレベルアーキテクチャは、マスクされたモデリングを介して触覚データからピクセルレベルの詳細をキャプチャし、マルチモーダルアラインメントとクロスセンサーマッチングを通じてセマンティックレベルのセンサーに依存する機能を学習することにより、知覚と転送性を向上させます。
マルチセンサーの転送可能性の包括的な分析を提供し、さまざまなデータセットおよび実際の注入タスクでメソッドを検証します。
実験結果は、私たちの方法が既存の方法を上回り、さまざまなセンサーにわたって優れた静的および動的な知覚機能を示すことを示しています。
要約(オリジナル)
Visuo-tactile sensors aim to emulate human tactile perception, enabling robots to precisely understand and manipulate objects. Over time, numerous meticulously designed visuo-tactile sensors have been integrated into robotic systems, aiding in completing various tasks. However, the distinct data characteristics of these low-standardized visuo-tactile sensors hinder the establishment of a powerful tactile perception system. We consider that the key to addressing this issue lies in learning unified multi-sensor representations, thereby integrating the sensors and promoting tactile knowledge transfer between them. To achieve unified representation of this nature, we introduce TacQuad, an aligned multi-modal multi-sensor tactile dataset from four different visuo-tactile sensors, which enables the explicit integration of various sensors. Recognizing that humans perceive the physical environment by acquiring diverse tactile information such as texture and pressure changes, we further propose to learn unified multi-sensor representations from both static and dynamic perspectives. By integrating tactile images and videos, we present AnyTouch, a unified static-dynamic multi-sensor representation learning framework with a multi-level structure, aimed at both enhancing comprehensive perceptual abilities and enabling effective cross-sensor transfer. This multi-level architecture captures pixel-level details from tactile data via masked modeling and enhances perception and transferability by learning semantic-level sensor-agnostic features through multi-modal alignment and cross-sensor matching. We provide a comprehensive analysis of multi-sensor transferability, and validate our method on various datasets and in the real-world pouring task. Experimental results show that our method outperforms existing methods, exhibits outstanding static and dynamic perception capabilities across various sensors.
arxiv情報
著者 | Ruoxuan Feng,Jiangyu Hu,Wenke Xia,Tianci Gao,Ao Shen,Yuhao Sun,Bin Fang,Di Hu |
発行日 | 2025-04-01 08:17:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google