Sim2Real Bilevel Adaptation for Object Surface Classification using Vision-Based Tactile Sensors

要約

この論文では、物体表面を分類するための視覚ベースの触覚センサーの分野における Sim2Real のギャップに取り組みます。
DIGIT センサーを介してラベルのない日常の物体からランダムに収集された現実世界の画像の比較的小規模なデータセットを使用して、このギャップを埋めるために拡散モデルをトレーニングします。
続いて、シミュレータを使用して、YCB モデル セットからオブジェクトの表面を均一にサンプリングして画像を生成します。
これらのシミュレートされた画像は、拡散モデルを使用して実際の領域に変換され、分類器をトレーニングするために自動的にラベル付けされます。
このトレーニング中に、敵対的手順を使用して 2 つのドメインの特徴をさらに調整します。
私たちの評価は、3D プリントされた 10 個の YCB オブジェクトのセットから得られた触覚画像のデータセットに対して行われます。
結果は、合計精度が 81.9% であることを示しており、シミュレートされた画像のみでトレーニングされた分類器によって達成された 34.7% と比較して、大幅な改善が見られます。
これは私たちのアプローチの有効性を示しています。
さらに、触覚データからの 6D オブジェクト姿勢推定タスクで分類子を使用してアプローチを検証します。

要約(オリジナル)

In this paper, we address the Sim2Real gap in the field of vision-based tactile sensors for classifying object surfaces. We train a Diffusion Model to bridge this gap using a relatively small dataset of real-world images randomly collected from unlabeled everyday objects via the DIGIT sensor. Subsequently, we employ a simulator to generate images by uniformly sampling the surface of objects from the YCB Model Set. These simulated images are then translated into the real domain using the Diffusion Model and automatically labeled to train a classifier. During this training, we further align features of the two domains using an adversarial procedure. Our evaluation is conducted on a dataset of tactile images obtained from a set of ten 3D printed YCB objects. The results reveal a total accuracy of 81.9%, a significant improvement compared to the 34.7% achieved by the classifier trained solely on simulated images. This demonstrates the effectiveness of our approach. We further validate our approach using the classifier on a 6D object pose estimation task from tactile data.

arxiv情報

著者 Gabriele M. Caddeo,Andrea Maracani,Paolo D. Alfano,Nicola A. Piga,Lorenzo Rosasco,Lorenzo Natale
発行日 2024-06-24 15:39:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク