Hearing Touch: Audio-Visual Pretraining for Contact-Rich Manipulation

要約

大量のデータでの事前トレーニングはロボット学習にとって有益ですが、現在のパラダイムは視覚表現に対してのみ大規模な事前トレーニングを実行し、他のモダリティの表現は最初からトレーニングされます。
豊富な視覚データとは対照的に、触覚センシングなどの他のモダリティの事前トレーニングにどのような関連するインターネット規模のデータが使用できるかは不明です。
このような事前トレーニングは、ロボット工学アプリケーションで一般的な低データ領域ではますます重要になります。
この論文では、代替触覚センサーとして接触マイクを使用することで、このギャップに対処します。
私たちの重要な洞察は、コンタクトマイクが本質的に音声ベースの情報を捕捉するため、大規模な視聴覚事前トレーニングを活用してロボット操作のパフォーマンスを向上させる表現を取得できるということです。
私たちの知る限り、私たちの方法は、ロボット操作のための大規模な多感覚の事前トレーニングを活用した最初のアプローチです。
実際のロボット実験のビデオなどの補足情報については、https://sites.google.com/view/hearing-touch をご覧ください。

要約(オリジナル)

Although pre-training on a large amount of data is beneficial for robot learning, current paradigms only perform large-scale pretraining for visual representations, whereas representations for other modalities are trained from scratch. In contrast to the abundance of visual data, it is unclear what relevant internet-scale data may be used for pretraining other modalities such as tactile sensing. Such pretraining becomes increasingly crucial in the low-data regimes common in robotics applications. In this paper, we address this gap by using contact microphones as an alternative tactile sensor. Our key insight is that contact microphones capture inherently audio-based information, allowing us to leverage large-scale audio-visual pretraining to obtain representations that boost the performance of robotic manipulation. To the best of our knowledge, our method is the first approach leveraging large-scale multisensory pre-training for robotic manipulation. For supplementary information including videos of real robot experiments, please see https://sites.google.com/view/hearing-touch.

arxiv情報

著者 Jared Mejia,Victoria Dean,Tess Hellebrekers,Abhinav Gupta
発行日 2024-05-14 13:16:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク