Not All Voxels Are Equal: Hardness-Aware Semantic Scene Completion with Self-Distillation

要約

セマンティック シーン補完 (セマンティック占有予測とも呼ばれる) は、自動運転車に高密度の幾何学的情報とセマンティック情報を提供することができ、学界と産業界の両方からますます注目を集めています。
残念なことに、既存の方法は通常、このタスクをボクセルごとの分類問題として定式化し、トレーニング中に 3D 空間で各ボクセルを同等に扱います。
ハード ボクセルには十分な注意が払われていないため、一部の困難な領域ではパフォーマンスが制限されます。
3D 密空間には通常、多数の空のボクセルが含まれており、学習は簡単ですが、既存のモデルですべてのボクセルを均一に処理するため、大量の計算が必要になります。
さらに、境界領域のボクセルは、内部のボクセルよりも区別するのが困難です。
この論文では、硬度を意識した設計で意味論的シーン完了モデルをトレーニングするための HASSC アプローチを提案します。
ネットワーク最適化プロセスからのグローバル硬度は、動的ハード ボクセル選択のために定義されます。
次に、幾何異方性を持つ局所的な硬度がボクセル単位のリファインに採用されます。
さらに、トレーニングプロセスを安定して一貫性のあるものにするために、自己蒸留戦略が導入されています。
広範な実験により、HASSC スキームが追加の推論コストを発生させることなく、ベースライン モデルの精度を効果的に高めることができることが示されています。
ソースコードはhttps://github.com/songw-zju/HASSCから入手できます。

要約(オリジナル)

Semantic scene completion, also known as semantic occupancy prediction, can provide dense geometric and semantic information for autonomous vehicles, which attracts the increasing attention of both academia and industry. Unfortunately, existing methods usually formulate this task as a voxel-wise classification problem and treat each voxel equally in 3D space during training. As the hard voxels have not been paid enough attention, the performance in some challenging regions is limited. The 3D dense space typically contains a large number of empty voxels, which are easy to learn but require amounts of computation due to handling all the voxels uniformly for the existing models. Furthermore, the voxels in the boundary region are more challenging to differentiate than those in the interior. In this paper, we propose HASSC approach to train the semantic scene completion model with hardness-aware design. The global hardness from the network optimization process is defined for dynamical hard voxel selection. Then, the local hardness with geometric anisotropy is adopted for voxel-wise refinement. Besides, self-distillation strategy is introduced to make training process stable and consistent. Extensive experiments show that our HASSC scheme can effectively promote the accuracy of the baseline model without incurring the extra inference cost. Source code is available at: https://github.com/songw-zju/HASSC.

arxiv情報

著者 Song Wang,Jiawei Yu,Wentong Li,Wenyu Liu,Xiaolu Liu,Junbo Chen,Jianke Zhu
発行日 2024-04-18 07:25:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク