Walking Your LiDOG: A Journey Through Multiple Domains for LiDAR Semantic Segmentation

要約

多様な環境で安全に動作できるロボットを展開する能力は、身体化されたインテリジェント エージェントを開発するために重要です。
コミュニティとして、私たちはドメイン内の LiDAR セマンティック セグメンテーションにおいて大きな進歩を遂げてきました。
しかし、これらの方法はドメイン間で一般化されるのでしょうか?
この質問に答えるために、LiDAR セマンティック セグメンテーション (DG-LSS) のドメイン汎化 (DG) を研究するための最初の実験セットアップを設計します。
私たちの結果は、クロスドメイン設定で評価した手法間の大きなギャップを裏付けています。たとえば、ソース データセット (SemanticKITTI) でトレーニングされたモデルは、ターゲット データで $26.53$ mIoU を取得しますが、ターゲット データセットでトレーニングされたモデルでは $48.49$ mIoU が得られます。
ターゲット ドメイン (nuScenes)。
このギャップに取り組むために、DG-LSS 用に特別に設計された最初の方法を提案します。この方法では、ターゲット ドメインで $34.88$ mIoU が得られ、すべてのベースラインを上回るパフォーマンスが得られます。
私たちの方法では、点群の鳥瞰図を分類することを学習する追加の高密度 2D 畳み込みデコーダーを使用して、スパース畳み込みエンコーダー/デコーダー 3D セグメンテーション ネットワークを強化します。
この単純な補助タスクにより、3D ネットワークは、センサー配置のシフトと解像度に対して堅牢で、ドメイン間で転送可能な機能を学習することができます。
この取り組みにより、私たちはコミュニティがそのようなクロスドメイン条件で将来のモデルを開発および評価するよう促すことを目的としています。

要約(オリジナル)

The ability to deploy robots that can operate safely in diverse environments is crucial for developing embodied intelligent agents. As a community, we have made tremendous progress in within-domain LiDAR semantic segmentation. However, do these methods generalize across domains? To answer this question, we design the first experimental setup for studying domain generalization (DG) for LiDAR semantic segmentation (DG-LSS). Our results confirm a significant gap between methods, evaluated in a cross-domain setting: for example, a model trained on the source dataset (SemanticKITTI) obtains $26.53$ mIoU on the target data, compared to $48.49$ mIoU obtained by the model trained on the target domain (nuScenes). To tackle this gap, we propose the first method specifically designed for DG-LSS, which obtains $34.88$ mIoU on the target domain, outperforming all baselines. Our method augments a sparse-convolutional encoder-decoder 3D segmentation network with an additional, dense 2D convolutional decoder that learns to classify a birds-eye view of the point cloud. This simple auxiliary task encourages the 3D network to learn features that are robust to sensor placement shifts and resolution, and are transferable across domains. With this work, we aim to inspire the community to develop and evaluate future models in such cross-domain conditions.

arxiv情報

著者 Cristiano Saltori,Aljoša Ošep,Elisa Ricci,Laura Leal-Taixé
発行日 2023-08-29 10:08:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク