Revisiting Self-Training with Regularized Pseudo-Labeling for Tabular Data

要約

半および自己教師あり学習の最近の進歩により、機械学習には膨大な量のラベル付きデータが必要であり、ラベルなしデータは無関係であるという長年の信念に亀裂が生じています。
さまざまなデータで成功していますが、表形式のデータに一般化できる支配的な半および自己教師あり学習方法はありません (つまり、既存の方法のほとんどは、適切な表形式のデータセットとアーキテクチャを必要とします)。
この論文では、最も広く使用されているアーキテクチャ、勾配ブースティング決定木を含むあらゆる種類のアルゴリズムに適用できる自己トレーニングを再検討し、カリキュラムの疑似ラベル付け (最先端の疑似ラベル付け技術
画像) 表形式のドメインの場合。
さらに、既存の疑似ラベル付け手法では、ラベル付けされていないデータから生成された疑似ラベルの信頼スコアを計算するときに、クラスターの仮定が保証されません。
この問題を克服するために、疑似ラベルの可能性に基づいて信頼スコアを正則化する新しい疑似ラベル付けアプローチを提案し、高密度領域にあるより信頼性の高い疑似ラベルを取得できるようにします。
さまざまなモデルと表形式のデータセットを使用して、アプローチの優位性を徹底的に検証します。

要約(オリジナル)

Recent progress in semi- and self-supervised learning has caused a rift in the long-held belief about the need for an enormous amount of labeled data for machine learning and the irrelevancy of unlabeled data. Although it has been successful in various data, there is no dominant semi- and self-supervised learning method that can be generalized for tabular data (i.e. most of the existing methods require appropriate tabular datasets and architectures). In this paper, we revisit self-training which can be applied to any kind of algorithm including the most widely used architecture, gradient boosting decision tree, and introduce curriculum pseudo-labeling (a state-of-the-art pseudo-labeling technique in image) for a tabular domain. Furthermore, existing pseudo-labeling techniques do not assure the cluster assumption when computing confidence scores of pseudo-labels generated from unlabeled data. To overcome this issue, we propose a novel pseudo-labeling approach that regularizes the confidence scores based on the likelihoods of the pseudo-labels so that more reliable pseudo-labels which lie in high density regions can be obtained. We exhaustively validate the superiority of our approaches using various models and tabular datasets.

arxiv情報

著者 Miwook Kim,Juseong Kim,Jose Bento,Giltae Song
発行日 2023-02-27 18:12:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク