要約
点群処理技術の急速な進歩により、高精度の分類を実現する効率的でコンパクトなモデルに対する需要が大幅に増加しています。
知識の蒸留は、強力なモデル圧縮手法として登場しました。
ただし、従来の KD では、大規模な教師モデルの前方推論に大量の計算リソースが必要になることが多く、そのため、生徒モデルのトレーニング効率が低下し、リソースの需要が増加します。
これらの課題に対処するために、教師と生徒の両方のモデルの同時読み込みを回避する革新的なオフライン記録戦略を導入し、それによってハードウェアの需要を削減します。
このアプローチでは、多数の拡張サンプルを教師モデルにフィードし、データ拡張パラメータと対応するロジット出力の両方を記録します。
ランダムなジッタリングなどのポイントレベルの操作を除外しながら、ランダムなスケーリングや変換などの形状レベルの拡張操作を適用することにより、レコードのサイズが大幅に削減されます。
さらに、小規模な生徒モデルが教師モデルの出力を過剰に模倣し、次善の解決策に収束するという問題を軽減するために、負の重み付け自己蒸留戦略を組み込みます。
実験結果は、提案された蒸留戦略により、スチューデント モデルがより低いパラメーター数を維持しながら、最先端のモデルに匹敵するパフォーマンスを達成できることを示しています。
このアプローチにより、パフォーマンスと複雑さの間で最適なバランスが保たれます。
この研究は、特にリソースに制約のある環境において、点群分類タスクの知識蒸留を最適化する私たちの手法の可能性を強調し、効率的な点群解析のための新しいソリューションを提供します。
要約(オリジナル)
The rapid advancement in point cloud processing technologies has significantly increased the demand for efficient and compact models that achieve high-accuracy classification. Knowledge distillation has emerged as a potent model compression technique. However, traditional KD often requires extensive computational resources for forward inference of large teacher models, thereby reducing training efficiency for student models and increasing resource demands. To address these challenges, we introduce an innovative offline recording strategy that avoids the simultaneous loading of both teacher and student models, thereby reducing hardware demands. This approach feeds a multitude of augmented samples into the teacher model, recording both the data augmentation parameters and the corresponding logit outputs. By applying shape-level augmentation operations such as random scaling and translation, while excluding point-level operations like random jittering, the size of the records is significantly reduced. Additionally, to mitigate the issue of small student model over-imitating the teacher model’s outputs and converging to suboptimal solutions, we incorporate a negative-weight self-distillation strategy. Experimental results demonstrate that the proposed distillation strategy enables the student model to achieve performance comparable to state-of-the-art models while maintaining lower parameter count. This approach strikes an optimal balance between performance and complexity. This study highlights the potential of our method to optimize knowledge distillation for point cloud classification tasks, particularly in resource-constrained environments, providing a novel solution for efficient point cloud analysis.
arxiv情報
著者 | Qiang Zheng,Chao Zhang,Jian Sun |
発行日 | 2024-09-16 15:51:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google