EchoPT: A Pretrained Transformer Architecture that Predicts 2D In-Air Sonar Images for Mobile Robotics

要約

予測脳仮説は、知覚が、内部世界モデルによって生成された予測された知覚トークンと実際の感覚入力トークンの間の誤差を最小限に抑えるプロセスとして解釈できることを示唆しています。
空中ソナーのコンテキストでこの仮説の実際の例を実装する場合、超音波センシングを制御する反射モデルの疎な性質により、重大な困難が生じます。
これらの課題にもかかわらず、ロボット工学における超音波データの予測処理を実装するには、ソナー データを使用して一貫した世界モデルを作成することが重要です。
唯一の外受容センサーモダリティとして超音波を使用して堅牢なロボットの動作を可能にする取り組みとして、この論文では、以前の感覚データとロボットの自我運動情報から 2D ソナー画像を予測するように設計された事前学習済みトランスフォーマー アーキテクチャである EchoPT を紹介します。
EchoPT を駆動するトランス アーキテクチャを詳しく説明し、モデルのパフォーマンスをいくつかの最先端の技術と比較します。
EchoPT モデルの提示と評価に加えて、2 つのロボット タスクにおけるこの予測知覚アプローチの有効性を実証します。

要約(オリジナル)

The predictive brain hypothesis suggests that perception can be interpreted as the process of minimizing the error between predicted perception tokens generated by an internal world model and actual sensory input tokens. When implementing working examples of this hypothesis in the context of in-air sonar, significant difficulties arise due to the sparse nature of the reflection model that governs ultrasonic sensing. Despite these challenges, creating consistent world models using sonar data is crucial for implementing predictive processing of ultrasound data in robotics. In an effort to enable robust robot behavior using ultrasound as the sole exteroceptive sensor modality, this paper introduces EchoPT, a pretrained transformer architecture designed to predict 2D sonar images from previous sensory data and robot ego-motion information. We detail the transformer architecture that drives EchoPT and compare the performance of our model to several state-of-the-art techniques. In addition to presenting and evaluating our EchoPT model, we demonstrate the effectiveness of this predictive perception approach in two robotic tasks.

arxiv情報

著者 Jan Steckel,Wouter Jansen,Nico Huebel
発行日 2024-05-21 08:18:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SP, eess.SY パーマリンク