Towards Interpretable Visuo-Tactile Predictive Models for Soft Robot Interactions

要約

自律システムは、予測不可能な環境をナビゲートし、外部オブジェクトと対話するという複雑な課題に直面しています。
ロボットエージェントを現実世界の状況にうまく統合できるかどうかは、世界モデルと予測スキルの融合を含むロボットエージェントの認識能力にかかっています。
効果的な知覚モデルは、周囲を調査するためのさまざまな感覚モダリティの融合に基づいて構築されます。
生の感覚モダリティにディープラーニングを適用することは、実行可能な選択肢を提供します。
ただし、学習ベースの知覚表現は解釈が困難になります。
この課題は、構造や材料のコンプライアンスにより予測がさらに困難になるソフト ロボットで特に顕著です。
私たちの研究では、生成モデルを活用してソフト ロボットのマルチモーダル知覚モデルを構築し、固有受容情報と視覚情報を活用して外部物体との接触相互作用を予測および解釈することで、この複雑さに対処しています。
知覚モデルを解釈するための一連のツールが提供され、学習フェーズ後の複数の感覚入力にわたる融合および予測プロセスに光を当てます。
知覚モデルの見通しと制御目的へのその影響について詳しく掘り下げていきます。

要約(オリジナル)

Autonomous systems face the intricate challenge of navigating unpredictable environments and interacting with external objects. The successful integration of robotic agents into real-world situations hinges on their perception capabilities, which involve amalgamating world models and predictive skills. Effective perception models build upon the fusion of various sensory modalities to probe the surroundings. Deep learning applied to raw sensory modalities offers a viable option. However, learning-based perceptive representations become difficult to interpret. This challenge is particularly pronounced in soft robots, where the compliance of structures and materials makes prediction even harder. Our work addresses this complexity by harnessing a generative model to construct a multi-modal perception model for soft robots and to leverage proprioceptive and visual information to anticipate and interpret contact interactions with external objects. A suite of tools to interpret the perception model is furnished, shedding light on the fusion and prediction processes across multiple sensory inputs after the learning phase. We will delve into the outlooks of the perception model and its implications for control purposes.

arxiv情報

著者 Enrico Donato,Thomas George Thuruthel,Egidio Falotico
発行日 2024-07-16 21:46:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク