要約
人間は潜在的な接触信号を知覚に組み込んでいるようです。
私たちの目標は、同様の機能をロボットに装備することであり、これを「私たちのモデル」と呼びます。
私たちのモデルは、タッチされた領域を表す視覚的なパッチに基づいて、予想されるタッチ信号を予測することを目的としています。
私たちはこの問題を、低次元の視覚触覚埋め込みを学習するタスクとして枠組み付けます。このタスクでは、奥行きパッチをエンコードし、そこから触覚信号をデコードします。
このタスクを達成するために、私たちは、安価で交換可能な磁気ベースの触覚センサーである ReSkin を採用しています。
ReSkin を使用して、8 つの基本的な幾何学的形状をランダムにタッチすることで得られた、位置合わせされた触覚データと視覚データのペアで構成されるデータセット上で PseudoTouch を収集し、トレーニングします。
我々は、物体認識と把握安定性予測という 2 つの下流タスクへの PseudoTouch の適用を通じて、PseudoTouch の有効性を実証します。
物体認識タスクでは、5 つの基本的な幾何学的形状と 5 つの家庭用物体のセットに対する学習された埋め込みのパフォーマンスを評価します。
PseudoTouch を使用すると、わずか 10 回のタッチで 84% の物体認識精度を達成し、固有受容のベースラインを超えました。
把握安定性タスクでは、ACRONYM ラベルを使用して、仮想深度情報から得られた PseudoTouch の予測を使用して把握成功予測子をトレーニングおよび評価します。
私たちのアプローチでは、部分的な点群データに依存するベースラインと比較して、精度が 32% 絶対的に向上します。
データ、コード、トレーニング済みモデルは http://pseudotouch.cs.uni-freiburg.de で公開されています。
要約(オリジナル)
Humans seemingly incorporate potential touch signals in their perception. Our goal is to equip robots with a similar capability, which we term \ourmodel. \ourmodel aims to predict the expected touch signal based on a visual patch representing the touched area. We frame this problem as the task of learning a low-dimensional visual-tactile embedding, wherein we encode a depth patch from which we decode the tactile signal. To accomplish this task, we employ ReSkin, an inexpensive and replaceable magnetic-based tactile sensor. Using ReSkin, we collect and train PseudoTouch on a dataset comprising aligned tactile and visual data pairs obtained through random touching of eight basic geometric shapes. We demonstrate the efficacy of PseudoTouch through its application to two downstream tasks: object recognition and grasp stability prediction. In the object recognition task, we evaluate the learned embedding’s performance on a set of five basic geometric shapes and five household objects. Using PseudoTouch, we achieve an object recognition accuracy 84% after just ten touches, surpassing a proprioception baseline. For the grasp stability task, we use ACRONYM labels to train and evaluate a grasp success predictor using PseudoTouch’s predictions derived from virtual depth information. Our approach yields an impressive 32% absolute improvement in accuracy compared to the baseline relying on partial point cloud data. We make the data, code, and trained models publicly available at http://pseudotouch.cs.uni-freiburg.de.
arxiv情報
著者 | Adrian Röfer,Nick Heppert,Abdallah Ayman,Eugenio Chisari,Abhinav Valada |
発行日 | 2024-03-22 10:51:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google