Robustness to Subpopulation Shift with Domain Label Noise via Regularized Annotation of Domains

要約

最悪グループ精度 (WGA) の最適化を目的とした最終層の再トレーニングの既存の方法は、トレーニング データ内の十分に注釈が付けられたグループに大きく依存しています。
我々は、理論と実践の両方で、WGA のダウンサンプリングまたはアップ重み付けを使用したアノテーションベースのデータ拡張はドメイン アノテーション ノイズの影響を受けやすく、高ノイズ領域ではバニラの経験的リスク最小化でトレーニングされたモデルの WGA に近づくことを示します。
明示的なドメイン アノテーションを必要とせずに堅牢な最終層分類器をトレーニングするために、正規化ドメイン アノテーション (RAD) を導入します。
私たちの結果は、RAD が最近提案された他のドメイン アノテーション フリー技術と競合できることを示しています。
最も重要なことは、RAD は、いくつかの公開されているデータセットのトレーニング データに 5% のノイズしか含まれていない場合でも、最先端のアノテーションに依存した手法よりも優れたパフォーマンスを発揮することです。

要約(オリジナル)

Existing methods for last layer retraining that aim to optimize worst-group accuracy (WGA) rely heavily on well-annotated groups in the training data. We show, both in theory and practice, that annotation-based data augmentations using either downsampling or upweighting for WGA are susceptible to domain annotation noise, and in high-noise regimes approach the WGA of a model trained with vanilla empirical risk minimization. We introduce Regularized Annotation of Domains (RAD) in order to train robust last layer classifiers without the need for explicit domain annotations. Our results show that RAD is competitive with other recently proposed domain annotation-free techniques. Most importantly, RAD outperforms state-of-the-art annotation-reliant methods even with only 5% noise in the training data for several publicly available datasets.

arxiv情報

著者 Nathan Stromberg,Rohan Ayyagari,Monica Welfert,Sanmi Koyejo,Richard Nock,Lalitha Sankar
発行日 2024-06-26 16:35:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク