要約
自己監視型画像ネットワークを使用すると、複雑な 2D タスク (セマンティック セグメンテーション、オブジェクト発見など) を非常に効率的に、下流側の監視をほとんどまたはまったく行わずに処理できます。
ただし、LIDAR データ上の自己監視型 3D ネットワークは、現時点ではそれほどパフォーマンスが良くありません。
したがって、いくつかの方法では、高品質の自己教師あり 2D 特徴を 3D ネットワークに抽出することが提案されています。
自動運転データに関してこれを行った最新の研究では、有望な結果が示されています。
しかし、これらの抽出された機能と完全に監視された機能との間には、パフォーマンスのギャップが依然として存在します。
この作業では、2D から 3D への蒸留を再検討します。
まず、セマンティック セグメンテーションに関して、従来の 3D 蒸留方法と比較して大幅な改善につながるシンプルなアプローチを提案します。
次に、大容量 3D ネットワークでの蒸留が高品質の 3D 特徴に到達するための鍵であることを示します。
これにより、実際に、教師なしで抽出された 3D フィーチャと完全に教師ありの 3D フィーチャとの間のギャップを大幅に埋めることができます。
最後に、高品質に抽出された表現がオープン語彙のセグメンテーションや背景/前景の発見にも使用できることを示します。
要約(オリジナル)
Self-supervised image networks can be used to address complex 2D tasks (e.g., semantic segmentation, object discovery) very efficiently and with little or no downstream supervision. However, self-supervised 3D networks on lidar data do not perform as well for now. A few methods therefore propose to distill high-quality self-supervised 2D features into 3D networks. The most recent ones doing so on autonomous driving data show promising results. Yet, a performance gap persists between these distilled features and fully-supervised ones. In this work, we revisit 2D-to-3D distillation. First, we propose, for semantic segmentation, a simple approach that leads to a significant improvement compared to prior 3D distillation methods. Second, we show that distillation in high capacity 3D networks is key to reach high quality 3D features. This actually allows us to significantly close the gap between unsupervised distilled 3D features and fully-supervised ones. Last, we show that our high-quality distilled representations can also be used for open-vocabulary segmentation and background/foreground discovery.
arxiv情報
著者 | Gilles Puy,Spyros Gidaris,Alexandre Boulch,Oriane Siméoni,Corentin Sautier,Patrick Pérez,Andrei Bursuc,Renaud Marlet |
発行日 | 2023-10-26 15:54:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google