A Practical Approach to Novel Class Discovery in Tabular Data

要約

Novel Class Discovery (NCD) の問題は、ラベル付きの既知クラスのセットから知識を抽出して、ラベルなしの新規クラスのセットを正確に分割することにあります。
NCD は最近コミュニティから大きな注目を集めていますが、コンピュータ ビジョンの問題や非現実的な条件下で解決されることがよくあります。
特に、新しいクラスの数は通常、事前にわかっていると想定されており、それらのラベルはハイパーパラメーターの調整に使用されることがあります。
これらの仮定に依存する方法は、現実世界のシナリオには適用できません。
この研究では、新しいクラスに関する事前知識が利用できない場合に、表形式データで NCD を解くことに焦点を当てます。
この目的を達成するために、$k$-fold 相互検証プロセスを適応させ、各フォールド内の既知のクラスの一部を非表示にすることで、NCD メソッドのハイパーパラメーターを調整することを提案します。
ハイパーパラメータが多すぎるメソッドはこれらの隠しクラスをオーバーフィットする可能性が高いことがわかったので、単純で深い NCD モデルを定義します。
この手法は、NCD 問題に必要な必須要素のみで構成されており、現実的な条件下で非常に優れたパフォーマンスを発揮します。
さらに、この方法の潜在空間を使用して、新規クラスの数を確実に推定できることがわかりました。
さらに、既知のクラスの知識を活用するために、2 つの教師なしクラスタリング アルゴリズム ($k$-means とスペクトル クラスタリング) を適応させます。
7 つの表形式データセットに対して広範な実験が行われ、提案された方法とハイパーパラメーター調整プロセスの有効性が実証され、新しいクラスからの知識に依存せずに NCD 問題を解決できることが示されています。

要約(オリジナル)

The problem of Novel Class Discovery (NCD) consists in extracting knowledge from a labeled set of known classes to accurately partition an unlabeled set of novel classes. While NCD has recently received a lot of attention from the community, it is often solved on computer vision problems and under unrealistic conditions. In particular, the number of novel classes is usually assumed to be known in advance, and their labels are sometimes used to tune hyperparameters. Methods that rely on these assumptions are not applicable in real-world scenarios. In this work, we focus on solving NCD in tabular data when no prior knowledge of the novel classes is available. To this end, we propose to tune the hyperparameters of NCD methods by adapting the $k$-fold cross-validation process and hiding some of the known classes in each fold. Since we have found that methods with too many hyperparameters are likely to overfit these hidden classes, we define a simple deep NCD model. This method is composed of only the essential elements necessary for the NCD problem and performs impressively well under realistic conditions. Furthermore, we find that the latent space of this method can be used to reliably estimate the number of novel classes. Additionally, we adapt two unsupervised clustering algorithms ($k$-means and Spectral Clustering) to leverage the knowledge of the known classes. Extensive experiments are conducted on 7 tabular datasets and demonstrate the effectiveness of the proposed method and hyperparameter tuning process, and show that the NCD problem can be solved without relying on knowledge from the novel classes.

arxiv情報

著者 Colin Troisemaine,Alexandre Reiffers-Masson,Stéphane Gosselin,Vincent Lemaire,Sandrine Vaton
発行日 2023-12-05 16:46:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク