要約
非構造化環境におけるロボットの自律動作は、多くの場合、視覚による空間理解によって支えられています。
同時に動作する複数のロボットで構成されるシステムでは、さらに、正確かつ信頼性の高い姿勢推定に頻繁にアクセスする必要があります。
相対姿勢を回帰するための古典的なビジョンベースの方法は、一般に計算コストが高く (リアルタイム アプリケーションを妨げる)、曖昧さを解決するためのデータ由来の事前分布が不足していることがよくあります。
この研究では、データから空間事前分布を学習し、姿勢推定と一般的な空間理解を可能にする、協調的なマルチロボット視覚空間基盤モデルである CoViS-Net を提案します。
私たちのモデルは完全に分散化されており、プラットフォームに依存せず、オンボード コンピューティングを使用してリアルタイムで実行可能であり、既存のネットワーク インフラストラクチャを必要としません。
CoViS-Net は、ロボット間のカメラのオーバーラップがなくても、相対姿勢推定とローカル鳥瞰図 (BEV) 表現を提供し、目に見えない領域の BEV 表現を予測できます。
さまざまな現実世界の設定にわたるマルチロボット編隊制御タスクでの使用を実証します。
私たちは補足資料をオンラインで提供し、トレーニング済みモデルをやがてオープンソース化する予定です。
https://sites.google.com/view/covis-net
要約(オリジナル)
Autonomous robot operation in unstructured environments is often underpinned by spatial understanding through vision. Systems composed of multiple concurrently operating robots additionally require access to frequent, accurate and reliable pose estimates. Classical vision-based methods to regress relative pose are commonly computationally expensive (precluding real-time applications), and often lack data-derived priors for resolving ambiguities. In this work, we propose CoViS-Net, a cooperative, multi-robot visual spatial foundation model that learns spatial priors from data, enabling pose estimation as well as general spatial comprehension. Our model is fully decentralized, platform-agnostic, executable in real-time using onboard compute, and does not require existing networking infrastructure. CoViS-Net provides relative pose estimates and a local bird’s-eye-view (BEV) representation, even without camera overlap between robots, and can predict BEV representations of unseen regions. We demonstrate its use in a multi-robot formation control task across various real-world settings. We provide supplementary material online and will open source our trained model in due course. https://sites.google.com/view/covis-net
arxiv情報
著者 | Jan Blumenkamp,Steven Morad,Jennifer Gielis,Amanda Prorok |
発行日 | 2024-06-07 11:23:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google