LaserSAM: Zero-Shot Change Detection Using Visual Segmentation of Spinning LiDAR

要約

このペーパーでは、カメラ認識技術を回転 LiDAR データに適用するアプローチを紹介します。
3D LiDAR からの長期変化検出の堅牢性を向上させるために、ピンホール カメラ モデルを使用して、距離と強度の情報が仮想パースペクティブにレンダリングされます。
色相-彩度-値の画像エンコーディングは、範囲と近赤外強度によって画像を色付けするために使用されます。
LiDAR のアクティブ シーン照明により、周囲の明るさに影響されず、追加の処理を行わずに夜間と日中の変化を検出できます。
範囲で色付けされた遠近感のある画像を使用すると、既存の基盤モデルで意味領域を検出できます。
具体的には、セグメント何でもモデルは、以前に取得したマップとパスを繰り返すロボットからのライブビューの両方で、意味的に類似した領域を検出します。
両方のビューのマスクを比較することにより、ライブ スキャンの変化が検出されます。
結果は、Segment Anything Model がシーンに導入された任意の変更の形状を正確にキャプチャしていることを示しています。
提案された方法は、非構造化環境で評価した場合に 73.3%、計画コリドー内で評価した場合に 80.4% の和集合に対するセグメンテーション交差を達成します。
昼夜の照明の変化を通じて変化を確実に検出できます。
ピクセルレベルのマスクが生成された後、3D ポイントと 1 対 1 の対応関係が得られるということは、2D マスクを直接使用して変更の 3D 位置を復元できることを意味します。
検出された 3D 変化は、ローカル モーション プランナーで障害物として扱われるため、閉ループで回避されます。
無人地上車両での実験により、この方法の性能が実証されました。

要約(オリジナル)

This paper presents an approach for applying camera perception techniques to spinning LiDAR data. To improve the robustness of long-term change detection from a 3D LiDAR, range and intensity information are rendered into virtual perspectives using a pinhole camera model. Hue-saturation-value image encoding is used to colourize the images by range and near-IR intensity. The LiDAR’s active scene illumination makes it invariant to ambient brightness, which enables night-to-day change detection without additional processing. Using the range-colourized, perspective image allows existing foundation models to detect semantic regions. Specifically, the Segment Anything Model detects semantically similar regions in both a previously acquired map and live view from a path-repeating robot. By comparing the masks in both views, changes in the live scan are detected. Results indicate that the Segment Anything Model accurately captures the shape of arbitrary changes introduced into scenes. The proposed method achieves a segmentation intersection over union of 73.3% when evaluated in unstructured environments and 80.4% when evaluated within the planning corridor. Changes can be detected reliably through day-to-night illumination variations. After pixel-level masks are generated, the one-to-one correspondence with 3D points means that the 2D masks can be used directly to recover the 3D location of the changes. The detected 3D changes are avoided in a closed loop by treating them as obstacles in a local motion planner. Experiments on an unmanned ground vehicle demonstrate the performance of the method.

arxiv情報

著者 Alexander Krawciw,Sven Lilge,Timothy D. Barfoot
発行日 2024-04-29 20:18:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク