要約
ロボット工学のための一般的なシーン理解には、学習時には知られていなかった新しいオブジェクトや構造を識別、セグメント化、グループ化できるように、柔軟な意味表現が必要である。我々は、リアルタイムSLAMの際に、標準的な事前学習済みネットワークから一般的な学習特徴を高効率な3次元幾何学的神経場表現に融合するアルゴリズムを発表する。融合された3次元特徴マップは、ニューラルフィールドの幾何学的表現の一貫性を受け継いでいる。これは、実行時に相互作用する微量の人間のラベリングによって、オブジェクトやオブジェクトの一部でさえ、オープンセット方式で頑健かつ正確にセグメント化できることを意味する。
要約(オリジナル)
General scene understanding for robotics requires flexible semantic representation, so that novel objects and structures which may not have been known at training time can be identified, segmented and grouped. We present an algorithm which fuses general learned features from a standard pre-trained network into a highly efficient 3D geometric neural field representation during real-time SLAM. The fused 3D feature maps inherit the coherence of the neural field’s geometry representation. This means that tiny amounts of human labelling interacting at runtime enable objects or even parts of objects to be robustly and accurately segmented in an open set manner.
arxiv情報
著者 | Kirill Mazur,Edgar Sucar,Andrew J. Davison |
発行日 | 2022-10-06 16:48:57+00:00 |
arxivサイト | arxiv_id(pdf) |