要約
この論文では、マルチセンサーとマルチタスクにまたがる触覚表現学習のフレームワークである T3: Transferable Tactile Transformers について説明します。
T3 は、カメラベースの触覚センシングが非常に不均一である、つまりセンサーがさまざまなフォームファクターに組み込まれており、既存のデータセットが異種タスク用に収集されているという現代の問題を克服するように設計されています。
T3 は、センサー固有のエンコーダーとタスク固有のデコーダーを備えた共有トランク トランスフォーマーを構築することにより、さまざまなセンサーとタスクのペアにわたって共有された潜在情報をキャプチャします。
T3 の事前トレーニングでは、いくつかのオープンソース データセットから集約された新しい Foundation Tactile (FoTa) データセットが利用され、13 個のセンサーと 11 個のタスクから収集された 300 万を超えるデータ ポイントが含まれています。
FoTa は、これまでの触覚センシングにおける最大かつ最も多様なデータセットであり、統一フォーマットで公開されています。
さまざまなセンサーとタスクにわたって、FoTa で事前トレーニングされた T3 が特定のセンサーとタスクの組み合わせでゼロショット転送性を達成し、少量のドメイン固有のデータでさらに微調整でき、そのパフォーマンスがより大きなネットワーク サイズに合わせて拡張できることが実験により示されています。
。
T3 は、長距離の接触が多い操作のための触覚エンコーダとしても効果的です。
サブミリメートルのマルチピン電子機器挿入タスクの結果によると、T3 は、ゼロからトレーニングされた触覚エンコーダを使用してトレーニングされたポリシーより 25% 高いタスク成功率、または触覚センシングを使用しない場合より 53% 高いタスク成功率を達成したことが示されています。
データ、コード、モデルのチェックポイントは、https://t3.alanz.info でオープンソース化されています。
要約(オリジナル)
This paper presents T3: Transferable Tactile Transformers, a framework for tactile representation learning that scales across multi-sensors and multi-tasks. T3 is designed to overcome the contemporary issue that camera-based tactile sensing is extremely heterogeneous, i.e. sensors are built into different form factors, and existing datasets were collected for disparate tasks. T3 captures the shared latent information across different sensor-task pairings by constructing a shared trunk transformer with sensor-specific encoders and task-specific decoders. The pre-training of T3 utilizes a novel Foundation Tactile (FoTa) dataset, which is aggregated from several open-sourced datasets and it contains over 3 million data points gathered from 13 sensors and 11 tasks. FoTa is the largest and most diverse dataset in tactile sensing to date and it is made publicly available in a unified format. Across various sensors and tasks, experiments show that T3 pre-trained with FoTa achieved zero-shot transferability in certain sensor-task pairings, can be further fine-tuned with small amounts of domain-specific data, and its performance scales with bigger network sizes. T3 is also effective as a tactile encoder for long horizon contact-rich manipulation. Results from sub-millimeter multi-pin electronics insertion tasks show that T3 achieved a task success rate 25% higher than that of policies trained with tactile encoders trained from scratch, or 53% higher than without tactile sensing. Data, code, and model checkpoints are open-sourced at https://t3.alanz.info.
arxiv情報
著者 | Jialiang Zhao,Yuxiang Ma,Lirui Wang,Edward H. Adelson |
発行日 | 2024-07-15 04:17:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google