CAST: Cluster-Aware Self-Training for Tabular Data

要約

自己学習は、そのシンプルさと汎用性から注目を集めているが、誤った信頼度によって引き起こされるノイズの多い擬似ラベルに弱いという欠点がある。この問題に対処するためにいくつかの解決策が提案されているが、それらは自己学習アルゴリズムやモデルアーキテクチャに大幅な変更を加える必要があり、ほとんどの場合、表形式ドメインへの適用には限界がある。この問題に対処するため、我々は、自己学習文脈における信頼できる確信度の新たな方向性を模索し、擬似ラベルの値を表す確信度は、クラスタ仮定を意識すべきであると結論付ける。この観点から、我々は表形式データに対するクラスタを意識した自己訓練(Cluster-Aware Self-Training:CAST)を提案する。具体的には、CASTは、ラベル付き訓練データにおける各クラスの局所的密度を利用することで、分類器の信頼度を正則化し、密度が低い領域における擬似ラベルの信頼度を低くする。最大21の実世界データセットに対する広範な経験的評価により、CASTの優れた性能だけでなく、自己訓練コンテキストにおける様々なセットアップにおける頑健性も確認された。

要約(オリジナル)

Self-training has gained attraction because of its simplicity and versatility, yet it is vulnerable to noisy pseudo-labels caused by erroneous confidence. Several solutions have been proposed to handle the problem, but they require significant modifications in self-training algorithms or model architecture, and most have limited applicability in tabular domains. To address this issue, we explore a novel direction of reliable confidence in self-training contexts and conclude that the confidence, which represents the value of the pseudo-label, should be aware of the cluster assumption. In this regard, we propose Cluster-Aware Self-Training (CAST) for tabular data, which enhances existing self-training algorithms at a negligible cost without significant modifications. Concretely, CAST regularizes the confidence of the classifier by leveraging local density for each class in the labeled training data, forcing the pseudo-labels in low-density regions to have lower confidence. Extensive empirical evaluations on up to 21 real-world datasets confirm not only the superior performance of CAST but also its robustness in various setups in self-training contexts.

arxiv情報

著者 Minwook Kim,Juseong Kim,Ki Beom Kim,Giltae Song
発行日 2024-02-02 17:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク