GRADE: Generating Realistic And Dynamic Environments for Robotics Research with Isaac Sim

要約

合成データと新しいレンダリング技術は、ターゲット追跡や人間の姿勢推定などのタスクにおけるコンピューター ビジョンの研究に大きな影響を与えてきました。
しかし、低レベルのソフトウェア制御と柔軟性の欠如、ロボット オペレーティング システムの統合、現実的な物理学、またはフォトリアリズムなど、ほとんどのシミュレーション フレームワークの制限により、ロボット工学の研究はその活用が遅れています。
これは、(視覚)知覚研究の進歩を妨げました。
自律ロボット工学、特に動的環境において。
たとえば、Visual Simultaneous Localization and Mapping (V-SLAM) は、ほとんどが静的環境で受動的に開発され、動的世界を現実的にシミュレートすることの難しさと、巨大なシミュレーションと現実の比較のため、事前に記録された少数の動的データセットで評価されてきました。
ギャップ。
これらの課題に対処するために、NVIDIA Isaac Sim に基づいて構築された高度にカスタマイズ可能なフレームワークである GRADE (Generating Realistic and Dynamic Environments) を紹介します。
Isaac のレンダリング機能と低レベル API を活用して、シミュレーションの設定と制御、グラウンドトゥルース データの収集、オンラインおよびオフラインのアプローチのテストを行います。
重要なのは、環境やシミュレーションの変更を許容しながら、物理的に有効なシミュレーション内で記録された実験を正確に繰り返す新しい方法を導入していることです。
次に、ドローンが飛行する動的な環境で、豊富に注釈が付けられたビデオの合成データセットを収集します。
それを使用して、人間の検出およびセグメンテーション モデルをトレーニングし、合成と実際のギャップを埋めます。
最後に、最先端の動的 V-SLAM アルゴリズムのベンチマークを行い、その短い追跡時間と低い汎化能力を明らかにします。
また、最高のパフォーマンスを誇る深層学習モデルが最高の SLAM パフォーマンスを達成できるわけではないことも初めて示しました。
コードとデータは、https://grade.is.tue.mpg.de でオープンソースとして提供されます。

要約(オリジナル)

Synthetic data and novel rendering techniques have greatly influenced computer vision research in tasks like target tracking and human pose estimation. However, robotics research has lagged behind in leveraging it due to the limitations of most simulation frameworks, including the lack of low-level software control and flexibility, Robot Operating System integration, realistic physics, or photorealism. This hindered progress in (visual-)perception research, e.g. in autonomous robotics, especially in dynamic environments. Visual Simultaneous Localization and Mapping (V-SLAM), for instance, has been mostly developed passively, in static environments, and evaluated on few pre-recorded dynamic datasets due to the difficulties of realistically simulating dynamic worlds and the huge sim-to-real gap. To address these challenges, we present GRADE (Generating Realistic and Dynamic Environments), a highly customizable framework built upon NVIDIA Isaac Sim. We leverage Isaac’s rendering capabilities and low-level APIs to populate and control the simulation, collect ground-truth data, and test online and offline approaches. Importantly, we introduce a new way to precisely repeat a recorded experiment within a physically enabled simulation while allowing environmental and simulation changes. Next, we collect a synthetic dataset of richly annotated videos in dynamic environments with a flying drone. Using that, we train detection and segmentation models for humans, closing the syn-to-real gap. Finally, we benchmark state-of-the-art dynamic V-SLAM algorithms, revealing their short tracking times and low generalization capabilities. We also show for the first time that the top-performing deep learning models do not achieve the best SLAM performance. Code and data are provided as open-source at https://grade.is.tue.mpg.de.

arxiv情報

著者 Elia Bonetto,Chenghao Xu,Aamir Ahmad
発行日 2024-08-22 06:52:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク