Towards Comparable Knowledge Distillation in Semantic Image Segmentation

要約

Knowledge Distillation (KD) は、セマンティック セグメンテーションにおける大きなモデル サイズと遅い推論速度に対して提案されたソリューションの 1 つです。
私たちの研究では、過去 4 年間の 14 件の出版物から提案されている 25 の蒸留損失項を特定しました。
残念ながら、トレーニング構成の違いにより、公開された結果に基づいて用語を比較することは不可能なことがよくあります。
この問題の良い例は、2022 年の 2 つの出版物の比較です。同じモデルとデータセットを使用した構造統計的テクスチャー蒸留 (SSTKD) では、スチューデントの mIoU が 4.54 増加し、最終パフォーマンスが 29.19 であると報告されていますが、適応遠近法蒸留 (
APD) は生徒の成績を 2.06 パーセントポイント向上させるだけですが、最終的な成績は 39.25 に達します。
このような極端な違いの理由は、多くの場合、ハイパーパラメーターの最適ではない選択と、その結果として参照ポイントとして使用されるスチューデント モデルのパフォーマンスが低下することです。
私たちの研究では、ハイパーパラメータが十分に最適化されると、広く受け入れられている 2 つのフレームワーク SKD と IFVD の蒸留改善が消失することを示すことで、不十分なハイパーパラメータ調整の問題を明らかにしました。
この分野での今後の研究の比較可能性を高めるために、3 つのデータセットと 2 つのスチューデント モデルに対する強固なベースラインを確立し、ハイパーパラメーター調整に関する広範な情報を提供します。
ADE20K データセットの単純なベースラインと競合できるのは 8 つの手法のうち 2 つだけであることがわかりました。

要約(オリジナル)

Knowledge Distillation (KD) is one proposed solution to large model sizes and slow inference speed in semantic segmentation. In our research we identify 25 proposed distillation loss terms from 14 publications in the last 4 years. Unfortunately, a comparison of terms based on published results is often impossible, because of differences in training configurations. A good illustration of this problem is the comparison of two publications from 2022. Using the same models and dataset, Structural and Statistical Texture Distillation (SSTKD) reports an increase of student mIoU of 4.54 and a final performance of 29.19, while Adaptive Perspective Distillation (APD) only improves student performance by 2.06 percentage points, but achieves a final performance of 39.25. The reason for such extreme differences is often a suboptimal choice of hyperparameters and a resulting underperformance of the student model used as reference point. In our work, we reveal problems of insufficient hyperparameter tuning by showing that distillation improvements of two widely accepted frameworks, SKD and IFVD, vanish when hyperparameters are optimized sufficiently. To improve comparability of future research in the field, we establish a solid baseline for three datasets and two student models and provide extensive information on hyperparameter tuning. We find that only two out of eight techniques can compete with our simple baseline on the ADE20K dataset.

arxiv情報

著者 Onno Niemann,Christopher Vox,Thorben Werner
発行日 2023-09-07 11:56:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク