要約
同時位置特定とマッピング (SLAM) 技術を使用して視覚障害者をナビゲートすることはできますが、混雑した空間向けの堅牢な SLAM ソリューションの開発は、現実的なデータセットの欠如によって制限されます。
これに対処するために、屋内の歩行者が多い環境での人間のナビゲーションのために特別に設計された新しい視覚慣性データセットである InCrowd-VI を紹介します。
Meta Aria Project メガネを使用して録画され、環境制御なしで現実的なシナリオをキャプチャします。
InCrowd-VI は、RGB、ステレオ画像、IMU 測定を含む、合計 5 km の軌跡長と 1.5 時間の記録時間に及ぶ 58 のシーケンスを備えています。
このデータセットは、歩行者の遮蔽物、さまざまな群集密度、複雑なレイアウト、照明の変化などの重要な課題を捉えています。
約 2 cm まで正確なグラウンド トゥルースの軌道は、Meta Aria プロジェクトの機械認識 SLAM サービスから生成されたデータセットで提供されます。
さらに、シーンの半密な 3D 点群が各シーケンスに提供されます。
InCrowd-VI での最先端のビジュアル オドメトリ (VO) および SLAM アルゴリズムの評価により、これらの現実的なシナリオではパフォーマンスに重大な制限があることが明らかになりました。
困難な条件下では、システムは必要な位置特定精度である 0.5 メートルと 1\% のドリフトしきい値を超え、従来の方法では最大 5 ~ 10\% のドリフトが示されました。
深層学習ベースのアプローチは、高い姿勢推定カバレッジ (>90\%) を維持しましたが、歩行ペースのナビゲーションに必要なリアルタイムの処理速度を達成できませんでした。
これらの結果は、複雑な屋内環境における視覚障害のあるナビゲーションのための SLAM 研究を進めるための新しいデータセットの必要性と価値を示しています。
データセットと関連ツールは、https://incrowd-vi.cloudlab.zhaw.ch/ で公開されています。
要約(オリジナル)
Simultaneous localization and mapping (SLAM) techniques can be used to navigate the visually impaired, but the development of robust SLAM solutions for crowded spaces is limited by the lack of realistic datasets. To address this, we introduce InCrowd-VI, a novel visual-inertial dataset specifically designed for human navigation in indoor pedestrian-rich environments. Recorded using Meta Aria Project glasses, it captures realistic scenarios without environmental control. InCrowd-VI features 58 sequences totaling a 5 km trajectory length and 1.5 hours of recording time, including RGB, stereo images, and IMU measurements. The dataset captures important challenges such as pedestrian occlusions, varying crowd densities, complex layouts, and lighting changes. Ground-truth trajectories, accurate to approximately 2 cm, are provided in the dataset, originating from the Meta Aria project machine perception SLAM service. In addition, a semi-dense 3D point cloud of scenes is provided for each sequence. The evaluation of state-of-the-art visual odometry (VO) and SLAM algorithms on InCrowd-VI revealed severe performance limitations in these realistic scenarios. Under challenging conditions, systems exceeded the required localization accuracy of 0.5 meters and the 1\% drift threshold, with classical methods showing drift up to 5-10\%. While deep learning-based approaches maintained high pose estimation coverage (>90\%), they failed to achieve real-time processing speeds necessary for walking pace navigation. These results demonstrate the need and value of a new dataset to advance SLAM research for visually impaired navigation in complex indoor environments. The dataset and associated tools are publicly available at https://incrowd-vi.cloudlab.zhaw.ch/.
arxiv情報
著者 | Marziyeh Bamdad,Hans-Peter Hutter,Alireza Darvishy |
発行日 | 2024-12-17 06:40:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google