SPIN: Simultaneous Perception, Interaction and Navigation

要約

最近、操作と移動の分野では目覚ましい進歩が見られますが、モバイル操作は依然として長年の課題です。
移動や静的操作と比較して、モバイル システムは、構造化されていない動的な環境で長期にわたる多様なタスクを実行可能にする必要があります。
アプリケーションは幅広く興味深いものですが、これらのシステムの開発には、ベースとアーム間の調整、環境を認識して相互作用するための搭載された知覚への依存、そして最も重要なことに、これらすべての部品を同時に統合することなど、数多くの課題があります。
これまでの研究では、自明に結び付けられた可動性と操作のための、もつれを解いたモジュール式スキルを使用して問題に取り組みました。
これにより、複合エラー、意思決定の遅れ、全身の調整不能など、いくつかの制限が生じます。
この研究では、アクティブな視覚システムを使用して環境を意識的に認識し、それに反応するリアクティブなモバイル操作フレームワークを紹介します。
人間が全身と手と目の協調を活用するのと同じように、私たちは、動くことと見ること、より具体的には、見るために動き、動くために見るという能力を活用するモバイルマニピュレーターを開発します。
これにより、動き回って環境と対話できるだけでなく、アクティブな視覚システムを使用して「いつ」「何を」認識するかを選択することもできます。
このようなエージェントは、環境マップを作成することなく、自我視覚のみを使用して機敏な全身調整を示しながら、複雑で乱雑なシナリオを回避することを学習することが観察されています。
結果の視覚化とビデオは https://spin-robot.github.io/ にあります。

要約(オリジナル)

While there has been remarkable progress recently in the fields of manipulation and locomotion, mobile manipulation remains a long-standing challenge. Compared to locomotion or static manipulation, a mobile system must make a diverse range of long-horizon tasks feasible in unstructured and dynamic environments. While the applications are broad and interesting, there are a plethora of challenges in developing these systems such as coordination between the base and arm, reliance on onboard perception for perceiving and interacting with the environment, and most importantly, simultaneously integrating all these parts together. Prior works approach the problem using disentangled modular skills for mobility and manipulation that are trivially tied together. This causes several limitations such as compounding errors, delays in decision-making, and no whole-body coordination. In this work, we present a reactive mobile manipulation framework that uses an active visual system to consciously perceive and react to its environment. Similar to how humans leverage whole-body and hand-eye coordination, we develop a mobile manipulator that exploits its ability to move and see, more specifically — to move in order to see and to see in order to move. This allows it to not only move around and interact with its environment but also, choose ‘when’ to perceive ‘what’ using an active visual system. We observe that such an agent learns to navigate around complex cluttered scenarios while displaying agile whole-body coordination using only ego-vision without needing to create environment maps. Results visualizations and videos at https://spin-robot.github.io/

arxiv情報

著者 Shagun Uppal,Ananye Agarwal,Haoyu Xiong,Kenneth Shaw,Deepak Pathak
発行日 2024-05-13 17:59:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク