要約
多指ロボットに器用さを教えることは、ロボット工学における長年の課題でした。
この分野で最も顕著な研究は、視覚的な観察または視覚から得られた状態の推定に基づいて動作するコントローラーまたはポリシーの学習に焦点を当てています。
ただし、このような方法は、接触力または手自体によって遮られたオブジェクトについての推論を必要とするきめの細かい操作タスクではうまく機能しません。
この作業では、2 つのフェーズで動作する触覚ベースの器用さの新しいアプローチである T-Dex を紹介します。
最初のフェーズでは、2.5 時間のプレイ データを収集します。これは、自己監視型触覚エンコーダーのトレーニングに使用されます。
これは、高次元の触覚読み取りを低次元の埋め込みに持ち込むために必要です。
第 2 段階では、器用なタスクのいくつかのデモンストレーションを与えられて、触覚観察と視覚観察を組み合わせたノンパラメトリック ポリシーを学習します。
5 つの挑戦的な器用なタスク全体で、触覚ベースの器用さモデルが純粋に視覚とトルクベースのモデルよりも平均 1.7 倍優れていることを示しています。
最後に、プレイ データ、アーキテクチャ、表現学習の重要性など、T-Dex にとって重要な要因に関する詳細な分析を提供します。
要約(オリジナル)
Teaching dexterity to multi-fingered robots has been a longstanding challenge in robotics. Most prominent work in this area focuses on learning controllers or policies that either operate on visual observations or state estimates derived from vision. However, such methods perform poorly on fine-grained manipulation tasks that require reasoning about contact forces or about objects occluded by the hand itself. In this work, we present T-Dex, a new approach for tactile-based dexterity, that operates in two phases. In the first phase, we collect 2.5 hours of play data, which is used to train self-supervised tactile encoders. This is necessary to bring high-dimensional tactile readings to a lower-dimensional embedding. In the second phase, given a handful of demonstrations for a dexterous task, we learn non-parametric policies that combine the tactile observations with visual ones. Across five challenging dexterous tasks, we show that our tactile-based dexterity models outperform purely vision and torque-based models by an average of 1.7X. Finally, we provide a detailed analysis on factors critical to T-Dex including the importance of play data, architectures, and representation learning.
arxiv情報
著者 | Irmak Guzey,Ben Evans,Soumith Chintala,Lerrel Pinto |
発行日 | 2023-03-21 17:59:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google