要約
分類タスクには、クラスの不均衡とデータ分布の進化により課題が生じます。
これらの問題に対処するには、トレーニング中に遭遇しなかった分布外 (OOD) サンプルを効果的に検出しながら、不均衡に対処する堅牢な方法が必要です。
この研究では、「Deep Neural Network-based Gaussian Descriptor for Imbalance Tabular Data (DNN-GDITD)」という表形式データセット用に設計された新しい OOD 検出アルゴリズムを紹介します。
DNN-GDITD アルゴリズムを任意の DNN の上に配置すると、不均衡なデータのより適切な分類と、球状決定境界を使用した OOD 検出が容易になります。
DNN-GDITD は、プッシュ損失、スコアベース損失、および焦点損失の組み合わせを使用して、テスト データ ポイントに信頼スコアを割り当て、データ ポイントを既知のクラスまたは OOD サンプルとして分類します。
表形式のデータセットに関する広範な実験により、3 つの OOD アルゴリズムと比較した DNN-GDITD の有効性が実証されました。
評価には、合成金融紛争データセットや、ガス センサー、ドライブ診断、MNIST などの公的に利用可能な表形式データセットを含む、多様な表形式データセットの不均衡と均衡のとれたシナリオが含まれており、DNN-GDITD の多用途性を示しています。
要約(オリジナル)
Classification tasks present challenges due to class imbalances and evolving data distributions. Addressing these issues requires a robust method to handle imbalances while effectively detecting out-of-distribution (OOD) samples not encountered during training. This study introduces a novel OOD detection algorithm designed for tabular datasets, titled Deep Neural Network-based Gaussian Descriptor for Imbalanced Tabular Data (DNN-GDITD). The DNN-GDITD algorithm can be placed on top of any DNN to facilitate better classification of imbalanced data and OOD detection using spherical decision boundaries. Using a combination of Push, Score-based, and focal losses, DNN-GDITD assigns confidence scores to test data points, categorizing them as known classes or as an OOD sample. Extensive experimentation on tabular datasets demonstrates the effectiveness of DNN-GDITD compared to three OOD algorithms. Evaluation encompasses imbalanced and balanced scenarios on diverse tabular datasets, including a synthetic financial dispute dataset and publicly available tabular datasets like Gas Sensor, Drive Diagnosis, and MNIST, showcasing DNN-GDITD’s versatility.
arxiv情報
著者 | Priyanka Chudasama,Anil Surisetty,Aakarsh Malhotra,Alok Singh |
発行日 | 2024-09-04 12:25:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google