要約
動的な環境における視覚的SLAM(Simultaneous Localization and Mapping)は、通常、移動するオブジェクトの画像特徴を識別してマスクし、パフォーマンスに悪影響が及ばないようにすることに依存しています。しかし、現在のアプローチは、必要なときに物体を隠せなかったり、逆に不必要に物体を隠してしまったりと、最適とは言い難いものである。そこで、我々は、物体をマスキングすることで性能が向上するタイミングを学習する、新しいSLAMを提案する。物体の分割方法とSLAMが与えられたとき、我々は後者に時間的マスキングの能力を与える。すなわち、任意のSLAMメトリックを最大化するために、あるクラスの物体をいつマスキングすべきかを推論する能力を与える。本手法は動く物体のマスキングを自ら学習するため、動きに関するいかなる事前情報も持たない。アノテーションのコストが高くならないように、我々は自己教師あり学習のための自動アノテーション手法を作成した。また、ConsInvと名付けた新しいデータセットを構築し、屋内と屋外のそれぞれで実世界の動的なシーケンスを含む挑戦的なデータセットを作成した。本手法はTUM RGB-Dデータセットにおいて最先端に到達し、KITTIとConsInvデータセットにおいてそれを上回る性能を示した。
要約(オリジナル)
Visual SLAM – Simultaneous Localization and Mapping – in dynamic environments typically relies on identifying and masking image features on moving objects to prevent them from negatively affecting performance. Current approaches are suboptimal: they either fail to mask objects when needed or, on the contrary, mask objects needlessly. Thus, we propose a novel SLAM that learns when masking objects improves its performance in dynamic scenarios. Given a method to segment objects and a SLAM, we give the latter the ability of Temporal Masking, i.e., to infer when certain classes of objects should be masked to maximize any given SLAM metric. We do not make any priors on motion: our method learns to mask moving objects by itself. To prevent high annotations costs, we created an automatic annotation method for self-supervised training. We constructed a new dataset, named ConsInv, which includes challenging real-world dynamic sequences respectively indoors and outdoors. Our method reaches the state of the art on the TUM RGB-D dataset and outperforms it on KITTI and ConsInv datasets.
arxiv情報
著者 | Adrian Bojko,Romain Dupont,Mohamed Tamaazousti,Hervé Le Borgne |
発行日 | 2022-12-06 18:24:27+00:00 |
arxivサイト | arxiv_id(pdf) |