Temporal-controlled Frame Swap for Generating High-Fidelity Stereo Driving Data for Autonomy Analysis

要約

この論文では、視覚的同時定位およびマッピング (vSLAM) タスク用の合成ステレオ駆動データを生成する新しいアプローチである TeFS (時間制御フレーム スワップ) を紹介します。
TeFS は、商用ドライビング シミュレータにおけるネイティブ ステレオ ビジョン サポートの欠如を克服するように設計されており、高予算のオープンワールド ビデオ ゲーム エンジンである Grand Theft Auto V (GTA V) を使用してその有効性を実証します。
最初の大規模な GTA V ステレオ駆動データセットである GTAV-TeFS を紹介します。これには、88,000 を超える高解像度ステレオ RGB 画像ペアと、時間情報、GPS 座標、カメラ ポーズ、およびフル解像度の高密度深度マップが含まれています。
GTAV-TeFS は、他の合成ステレオ データセットに比べていくつかの利点を提供し、GTA V の環境下で最先端のステレオ vSLAM モデルの評価と強化を可能にします。
TeFS を使用して収集されたステレオ データの品質を、オープンソースのシミュレーターを使用して従来のデュアル ビューポート データと比較分析することで検証します。
また、GTAV-TeFS に含まれる困難なケースの比較グループを使用してさまざまな vSLAM モデルのベンチマークを行い、各モデルに固有の明確な利点と制限を明らかにします。
私たちの研究の目標は、商用グレードのゲーム シミュレーターからのより忠実度の高いステレオ データを研究領域に持ち込み、vSLAM モデルの境界を押し広げることです。

要約(オリジナル)

This paper presents a novel approach, TeFS (Temporal-controlled Frame Swap), to generate synthetic stereo driving data for visual simultaneous localization and mapping (vSLAM) tasks. TeFS is designed to overcome the lack of native stereo vision support in commercial driving simulators, and we demonstrate its effectiveness using Grand Theft Auto V (GTA V), a high-budget open-world video game engine. We introduce GTAV-TeFS, the first large-scale GTA V stereo-driving dataset, containing over 88,000 high-resolution stereo RGB image pairs, along with temporal information, GPS coordinates, camera poses, and full-resolution dense depth maps. GTAV-TeFS offers several advantages over other synthetic stereo datasets and enables the evaluation and enhancement of state-of-the-art stereo vSLAM models under GTA V’s environment. We validate the quality of the stereo data collected using TeFS by conducting a comparative analysis with the conventional dual-viewport data using an open-source simulator. We also benchmark various vSLAM models using the challenging-case comparison groups included in GTAV-TeFS, revealing the distinct advantages and limitations inherent to each model. The goal of our work is to bring more high-fidelity stereo data from commercial-grade game simulators into the research domain and push the boundary of vSLAM models.

arxiv情報

著者 Yedi Luo,Xiangyu Bai,Le Jiang,Aniket Gupta,Eric Mortin,Hanumant Singh,Sarah Ostadabbas
発行日 2023-12-25 16:07:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク