Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation

要約

人間レベルの器用さを実現するには、ロボットがマルチモーダルセンシングから空間認識を推測し、接触インタラクションを推論する必要があります。
新しい物体を手で操作する際、そのような空間認識には、物体の姿勢と形状を推定することが含まれます。
現状の手持ち知覚は主に視覚を利用しており、先験的に既知の物体の追跡に限定されています。
さらに、操作中に手持ちのオブジェクトの視覚的なオクルージョンが差し迫っているため、現在のシステムはオクルージョンなしでタスクを超えて進むことができません。
複数の指を持つ手の視覚とタッチセンシングを組み合わせて、手の操作中にオブジェクトの姿勢と形状を推定します。
私たちのメソッド NeuralFeels は、オンラインで神経場を学習することでオブジェクトのジオメトリをエンコードし、ポーズ グラフ問題を最適化することでそれを共同追跡します。
私たちは、固有受容主導型のポリシーを介してさまざまなオブジェクトと相互作用する、シミュレーションと現実世界におけるマルチモーダルな手の知覚を研究します。
私たちの実験では、最終的な再構成 F スコアが $81$%、平均ポーズ ドリフトが $4.7\,\text{mm}$ であることが示されましたが、既知の CAD モデルではさらに $2.3\,\text{mm}$ に減少しました。
さらに、高度な視覚的遮蔽下では、視覚のみの方法と比較して追跡において最大 $94$% の改善を達成できることが観察されています。
私たちの結果は、触覚が、少なくとも手で操作する際の視覚的推定を洗練し、よく言えば曖昧さをなくすことを示しています。
この分野のベンチマークへのステップとして、70 件の実験の評価データセット FeelSight をリリースします。
マルチモーダルセンシングによって駆動される私たちの神経表現は、ロボットの器用性の向上に向けた認識のバックボーンとして機能します。
ビデオはプロジェクト Web サイト https://suddhu.github.io/neural-feels/ でご覧いただけます。

要約(オリジナル)

To achieve human-level dexterity, robots must infer spatial awareness from multimodal sensing to reason over contact interactions. During in-hand manipulation of novel objects, such spatial awareness involves estimating the object’s pose and shape. The status quo for in-hand perception primarily employs vision, and restricts to tracking a priori known objects. Moreover, visual occlusion of objects in-hand is imminent during manipulation, preventing current systems to push beyond tasks without occlusion. We combine vision and touch sensing on a multi-fingered hand to estimate an object’s pose and shape during in-hand manipulation. Our method, NeuralFeels, encodes object geometry by learning a neural field online and jointly tracks it by optimizing a pose graph problem. We study multimodal in-hand perception in simulation and the real-world, interacting with different objects via a proprioception-driven policy. Our experiments show final reconstruction F-scores of $81$% and average pose drifts of $4.7\,\text{mm}$, further reduced to $2.3\,\text{mm}$ with known CAD models. Additionally, we observe that under heavy visual occlusion we can achieve up to $94$% improvements in tracking compared to vision-only methods. Our results demonstrate that touch, at the very least, refines and, at the very best, disambiguates visual estimates during in-hand manipulation. We release our evaluation dataset of 70 experiments, FeelSight, as a step towards benchmarking in this domain. Our neural representation driven by multimodal sensing can serve as a perception backbone towards advancing robot dexterity. Videos can be found on our project website https://suddhu.github.io/neural-feels/

arxiv情報

著者 Sudharshan Suresh,Haozhi Qi,Tingfan Wu,Taosha Fan,Luis Pineda,Mike Lambeta,Jitendra Malik,Mrinal Kalakrishnan,Roberto Calandra,Michael Kaess,Joseph Ortiz,Mustafa Mukadam
発行日 2023-12-20 22:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク