Adaptive Group Robust Ensemble Knowledge Distillation

要約

ニューラル ネットワークはデータ内の偽の相関を学習する可能性があり、過小評価されたサブグループのパフォーマンス格差につながることがよくあります。
研究によると、知識が複雑な教師モデルから比較的「単純な」生徒モデルに抽出されると、格差が拡大することが実証されています。
これまでの研究では、アンサンブル深層学習手法が最悪の場合のサブグループのパフォーマンスを向上させることができることが示されています。
ただし、教師のアンサンブルから知識を抽出する場合、特に教師モデルのバイアスが軽減されている場合に、この利点が引き継がれるかどうかは不明です。
この研究は、教師モデルの偏りが解消されている場合でも、従来のアンサンブル知識の蒸留では、蒸留された学生モデルの最悪の場合のサブグループのパフォーマンスが大幅に低下する可能性があることを示しています。
これを克服するために、我々は適応グループロバストアンサンブル知識蒸留 (AGRE-KD) を提案します。これは、スチューデントモデルが未知の過小評価されたサブグループにとって有益な知識を確実に受け取ることを保証するシンプルなアンサンブル戦略です。
追加の偏りのあるモデルを活用することで、私たちの方法は、偏りのあるモデルから逸脱する勾配方向を持つ教師の重み付けを高めることにより、最もパフォーマンスの悪いサブグループを改善する知識を持つ教師を選択的に選択します。
いくつかのデータセットに対する私たちの実験は、提案されたアンサンブル蒸留手法の優位性を実証し、多数決に基づく古典的なモデルのアンサンブルよりも優れたパフォーマンスを発揮できることを示しています。

要約(オリジナル)

Neural networks can learn spurious correlations in the data, often leading to performance disparity for underrepresented subgroups. Studies have demonstrated that the disparity is amplified when knowledge is distilled from a complex teacher model to a relatively ‘simple’ student model. Prior work has shown that ensemble deep learning methods can improve the performance of the worst-case subgroups; however, it is unclear if this advantage carries over when distilling knowledge from an ensemble of teachers, especially when the teacher models are debiased. This study demonstrates that traditional ensemble knowledge distillation can significantly drop the performance of the worst-case subgroups in the distilled student model even when the teacher models are debiased. To overcome this, we propose Adaptive Group Robust Ensemble Knowledge Distillation (AGRE-KD), a simple ensembling strategy to ensure that the student model receives knowledge beneficial for unknown underrepresented subgroups. Leveraging an additional biased model, our method selectively chooses teachers whose knowledge would better improve the worst-performing subgroups by upweighting the teachers with gradient directions deviating from the biased model. Our experiments on several datasets demonstrate the superiority of the proposed ensemble distillation technique and show that it can even outperform classic model ensembles based on majority voting.

arxiv情報

著者 Patrik Kenfack,Ulrich Aïvodji,Samira Ebrahimi Kahou
発行日 2024-11-22 14:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク