要約
本論文では、vSLAM(visual simultaneous localization and mapping)タスクのための合成ステレオドライビングデータを生成するための新しいアプローチ、TeFS(Temporal-controlled Frame Swap)を示す。TeFSは、市販のドライビングシミュレータにおけるネイティブなステレオビジョンのサポート不足を克服するために設計されており、高予算のオープンワールドビデオエンジンであるGTA V (Grand Theft Auto V) を用いてその効果を実証しています。GTAV-TeFSは、88,000枚以上の高解像度RGBステレオ画像と、時間情報、GPS座標、カメラポーズ、フル解像度デプスマップを含む、初の大規模GTA Vステレオドライビングデータセットです。GTAV-TeFSは、他の合成ステレオデータセットと比較していくつかの利点があり、GTA Vの環境下で最先端のステレオvSLAMモデルの評価と強化が可能です。オープンソースのシミュレータを使用して従来のデュアルビューポートデータとの比較分析を行うことで、TeFSを使用して収集されたステレオデータの品質を検証しています。また、GTAV-TeFSに含まれるチャレンジングケース比較群を用いて、様々なvSLAMモデルのベンチマークを行い、各モデルに固有の明確な利点と限界を明らかにしました。本研究の目的は、商業用ゲームシミュレータの高忠実度ステレオデータを研究領域に導入し、vSLAMモデルの境界を押し広げることにあります。また、我々のデータセットは、事前に訓練された最先端のステレオマッチングネットワークの有効性を示すものであり、KITTIステレオ奥行き推定ベンチマークでかなりの性能向上を示しています。すべてのコードとデータセットは、採用された時点で公開されます。
要約(オリジナル)
This paper presents a novel approach, TeFS (Temporal-controlled Frame Swap), to generate synthetic stereo driving data for visual simultaneous localization and mapping (vSLAM) tasks. TeFS is designed to overcome the lack of native stereo vision support in commercial driving simulators, and we demonstrate its effectiveness using Grand Theft Auto V (GTA V), a high-budget open-world video game engine. We introduce GTAV-TeFS, the first large-scale GTA V stereo-driving dataset, containing over 88,000 high-resolution stereo RGB image pairs, along with temporal information, GPS coordinates, camera poses, and full-resolution dense depth maps. GTAV-TeFS offers several advantages over other synthetic stereo datasets and enables the evaluation and enhancement of state-of-the-art stereo vSLAM models under GTA V’s environment. We validate the quality of the stereo data collected using TeFS by conducting a comparative analysis with the conventional dual-viewport data using an open-source simulator. We also benchmark various vSLAM models using the challenging-case comparison groups included in GTAV-TeFS, revealing the distinct advantages and limitations inherent to each model. The goal of our work is to bring more high-fidelity stereo data from commercial-grade game simulators into the research domain and push the boundary of vSLAM models. %Our dataset also demonstrates the effectiveness of pre-trained state-of-the-art stereo matching networks, which show considerable performance gains on KITTI stereo depth estimation benchmarks. All code and datasets will be released upon acceptance.
arxiv情報
著者 | Yedi Luo,Xiangyu Bai,Le Jiang,Aniket Gupta,Eric Mortin,Hanumant Singh Sarah Ostadabbas |
発行日 | 2023-06-02 17:27:46+00:00 |
arxivサイト | arxiv_id(pdf) |