OVO: Open-Vocabulary Occupancy

要約

セマンティック占有予測は、自律エージェントが 3D 環境で安全に動作できるように、周囲の密なジオメトリとセマンティクスを推測することを目的としています。
既存の占有予測手法は、ほぼ完全に人間が注釈を付けた体積データに基づいてトレーニングされています。
このような 3D アノテーションの生成は高品質ではありますが、手間とコストがかかるため、トレーニング データセット内のいくつかの特定のオブジェクト カテゴリに制限されます。
この制限に対処するために、この論文では、トレーニング中に 3D アノテーションを必要とせずに、任意のクラスの意味論的な占有予測を可能にする新しいアプローチである Open Vocabulary Occupancy (OVO) を提案します。
私たちのアプローチの鍵は、(1) 事前トレーニングされた 2D オープン語彙セグメンテーション モデルから 3D 占有ネットワークへの知識の蒸留、および (2) 高品質のトレーニング データ生成のためのピクセル-ボクセル フィルタリングです。
結果として得られるフレームワークはシンプルかつコンパクトで、ほとんどの最先端のセマンティック占有予測モデルと互換性があります。
NYUv2 および SemanticKITTI データセットでは、OVO は教師ありセマンティック占有予測アプローチと比較して競争力のあるパフォーマンスを達成します。
さらに、提案されたフレームワークの設計についての洞察を提供するために、広範な分析とアブレーション研究を実施します。
私たちのコードは https://github.com/dzcgaara/OVO で公開されています。

要約(オリジナル)

Semantic occupancy prediction aims to infer dense geometry and semantics of surroundings for an autonomous agent to operate safely in the 3D environment. Existing occupancy prediction methods are almost entirely trained on human-annotated volumetric data. Although of high quality, the generation of such 3D annotations is laborious and costly, restricting them to a few specific object categories in the training dataset. To address this limitation, this paper proposes Open Vocabulary Occupancy (OVO), a novel approach that allows semantic occupancy prediction of arbitrary classes but without the need for 3D annotations during training. Keys to our approach are (1) knowledge distillation from a pre-trained 2D open-vocabulary segmentation model to the 3D occupancy network, and (2) pixel-voxel filtering for high-quality training data generation. The resulting framework is simple, compact, and compatible with most state-of-the-art semantic occupancy prediction models. On NYUv2 and SemanticKITTI datasets, OVO achieves competitive performance compared to supervised semantic occupancy prediction approaches. Furthermore, we conduct extensive analyses and ablation studies to offer insights into the design of the proposed framework. Our code is publicly available at https://github.com/dzcgaara/OVO.

arxiv情報

著者 Zhiyu Tan,Zichao Dong,Cheng Zhang,Weikun Zhang,Hang Ji,Hao Li
発行日 2023-06-14 17:30:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク