要約
3Dインスタンスセグメンテーション(3DIS)は大幅に進歩していますが、既存の方法は通常、すべてのオブジェクトクラスが事前に既知であり、均一に分布していると仮定します。
ただし、この仮定は、新しいクラスが徐々に出現し、自然な不均衡を示す動的で現実世界の環境では非現実的です。
いくつかのアプローチはクラスの出現に対処していますが、クラスの不均衡を見落としていることが多く、最適ではないパフォーマンスをもたらします。特にまれなカテゴリで。
この課題に取り組むために、\ textbf {cl} ass-incremental \ textbf {imb} alance-aware \ textbf {3d}の統一されたフレームワークであるClimb-3dを提案します。
確立された模範的なリプレイ(ER)戦略に基づいて、ERだけでは制約されたメモリ条件下で堅牢なパフォーマンスを達成するには不十分であることを示しています。
これを緩和するために、凍結した事前モデルからの予測を活用することにより、以前に学習したカテゴリに監督を拡張する新しい擬似ラベルジェネレーター(PLG)を導入します。
その約束にもかかわらず、PLGは頻繁なクラスに向かってバイアスをかける傾向があります。
したがって、過去のデータへのアクセスを必要とせずに、擬似適応からオブジェクト頻度を推定し、トレーニングバイアスを動的に調整するクラスバランスの取れた再重視(CBR)スキームを提案します。
挑戦的なscannet200データセット、さらにscannetv2でセマンティックセグメンテーションで3DIの3つの増分シナリオを設計および評価します。
私たちのアプローチは、最先端の結果を達成し、例えばセグメンテーションのために最大16.76 \%マップ、セマンティックセグメンテーションのために約30 \%MIOUで最大16.76 \%マップを上回り、頻繁なクラスと希少クラスの両方で強力な一般化を示します。
要約(オリジナル)
While 3D instance segmentation (3DIS) has advanced significantly, existing methods typically assume that all object classes are known in advance and are uniformly distributed. However, this assumption is unrealistic in dynamic, real-world environments where new classes emerge gradually and exhibit natural imbalance. Although some approaches have addressed class emergence, they often overlook class imbalance, resulting in suboptimal performance — particularly on rare categories. To tackle this challenge, we propose CLIMB-3D, a unified framework for \textbf{CL}ass-incremental \textbf{Imb}alance-aware \textbf{3D}IS. Building upon established exemplar replay (ER) strategies, we show that ER alone is insufficient to achieve robust performance under constrained memory conditions. To mitigate this, we introduce a novel pseudo-label generator (PLG) that extends supervision to previously learned categories by leveraging predictions from a frozen prior model. Despite its promise, PLG tends to bias towards frequent classes. Therefore, we propose a class-balanced re-weighting (CBR) scheme, that estimates object frequencies from pseudo-labels and dynamically adjusts training bias — without requiring access to past data. We design and evaluate three incremental scenarios for 3DIS on the challenging ScanNet200 dataset, and additionally on semantic segmentation on ScanNetV2. Our approach achieves state-of-the-art results, surpassing prior work by up to 16.76\% mAP for instance segmentation and approximately 30\% mIoU for semantic segmentation, demonstrating strong generalization across both frequent and rare classes.
arxiv情報
著者 | Vishal Thengane,Jean Lahoud,Hisham Cholakkal,Rao Muhammad Anwer,Lu Yin,Xiatian Zhu,Salman Khan |
発行日 | 2025-05-21 14:24:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google