Multi-modal perception for soft robotic interactions using generative models

要約

知覚は、物理的エージェントと外部環境との活発な相互作用に不可欠です。
触覚や視覚などの複数の感覚モダリティを統合すると、この知覚プロセスが強化され、世界についてのより包括的かつ堅牢な理解を生み出すことができます。
このような融合は、ソフト ロボットなどの高度に変形可能な物体に特に役立ちます。
複数の感覚入力からコンパクトでありながら包括的な状態表現を開発することで、複雑な制御戦略の開発への道を開くことができます。
この論文では、多様なモダリティからのデータを調和させて全体的な状態表現を構築し、重要な情報を同化する知覚モデルを紹介します。
このモデルは、感覚入力とロボット動作の間の因果関係に依存し、生成モデルを採用して融合された情報を効率的に圧縮し、次の観測を予測します。
我々は、ソフトロボットの視覚と固有受容からどのように接触を予測できるか、クロスモーダル生成の重要性、そしてなぜこれが非構造化環境におけるソフトロボットのインタラクションに不可欠なのかについての研究を初めて紹介する。

要約(オリジナル)

Perception is essential for the active interaction of physical agents with the external environment. The integration of multiple sensory modalities, such as touch and vision, enhances this perceptual process, creating a more comprehensive and robust understanding of the world. Such fusion is particularly useful for highly deformable bodies such as soft robots. Developing a compact, yet comprehensive state representation from multi-sensory inputs can pave the way for the development of complex control strategies. This paper introduces a perception model that harmonizes data from diverse modalities to build a holistic state representation and assimilate essential information. The model relies on the causality between sensory input and robotic actions, employing a generative model to efficiently compress fused information and predict the next observation. We present, for the first time, a study on how touch can be predicted from vision and proprioception on soft robots, the importance of the cross-modal generation and why this is essential for soft robotic interactions in unstructured environments.

arxiv情報

著者 Enrico Donato,Egidio Falotico,Thomas George Thuruthel
発行日 2024-04-05 17:06:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク