要約
3D 点群セマンティック セグメンテーションのディープラーニング モデルは、さまざまなセンサーでキャプチャされたデータやドメイン シフトによるさまざまな環境でキャプチャされたデータでトレーニングおよびテストされた場合、限られた一般化機能を示します。
ドメイン適応手法を使用すると、たとえば、センサー ノイズのシミュレーション、ドメインに依存しないジェネレーターの開発、点群補完ネットワークのトレーニングなどによって、このドメインのシフトを軽減できます。
多くの場合、これらの方法はレンジ ビュー マップ用に調整されているか、マルチモーダル入力が必要です。
対照的に、画像ドメインでのドメイン適応は、サンプル混合を通じて実行できます。これは、個別の適応モジュールを使用するのではなく、入力データの操作に重点を置きます。
この研究では、点群ドメイン適応のための構成的意味混合を紹介します。これは、意味論的および幾何学的サンプル混合に基づく点群セグメンテーションのための最初の教師なしドメイン適応技術を表します。
ソース ドメイン (合成など) からの点群とターゲット ドメイン (現実世界など) からの点群を同時に処理できる 2 ブランチ対称ネットワーク アーキテクチャを紹介します。
各ブランチは、他のドメインから選択されたデータ フラグメントを統合し、ソース ラベルとターゲット (疑似) ラベルから得られるセマンティック情報を利用することによって、1 つのドメイン内で動作します。
さらに、私たちの方法では、限られた数の人間によるポイントレベルの注釈 (半教師あり) を活用して、パフォーマンスをさらに向上させることができます。
LiDAR データセットを使用して、合成から現実へのシナリオと現実から現実へのシナリオの両方でアプローチを評価し、教師なし設定と半教師あり設定の両方で最先端の手法を大幅に上回るパフォーマンスを示します。
要約(オリジナル)
Deep-learning models for 3D point cloud semantic segmentation exhibit limited generalization capabilities when trained and tested on data captured with different sensors or in varying environments due to domain shift. Domain adaptation methods can be employed to mitigate this domain shift, for instance, by simulating sensor noise, developing domain-agnostic generators, or training point cloud completion networks. Often, these methods are tailored for range view maps or necessitate multi-modal input. In contrast, domain adaptation in the image domain can be executed through sample mixing, which emphasizes input data manipulation rather than employing distinct adaptation modules. In this study, we introduce compositional semantic mixing for point cloud domain adaptation, representing the first unsupervised domain adaptation technique for point cloud segmentation based on semantic and geometric sample mixing. We present a two-branch symmetric network architecture capable of concurrently processing point clouds from a source domain (e.g. synthetic) and point clouds from a target domain (e.g. real-world). Each branch operates within one domain by integrating selected data fragments from the other domain and utilizing semantic information derived from source labels and target (pseudo) labels. Additionally, our method can leverage a limited number of human point-level annotations (semi-supervised) to further enhance performance. We assess our approach in both synthetic-to-real and real-to-real scenarios using LiDAR datasets and demonstrate that it significantly outperforms state-of-the-art methods in both unsupervised and semi-supervised settings.
arxiv情報
著者 | Cristiano Saltori,Fabio Galasso,Giuseppe Fiameni,Nicu Sebe,Fabio Poiesi,Elisa Ricci |
発行日 | 2023-08-28 14:43:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google