Data Imputation by Pursuing Better Classification: A Supervised Kernel-Based Method

要約

データ補完、つまり不完全なデータセットの欠落している特徴要素を埋めるプロセスは、データ駆動型学習において重要な役割を果たします。
基本的な信念は、データ補完はパフォーマンスの学習に役立つということであり、より適切な分類を追求することでデータ補完プロセスを導くことができるということになります。
一部の作品では、このタスクを支援するためにラベル情報の使用を検討していますが、ラベルの単純な使用は柔軟性に欠けており、厳密な仮定に依存している可能性があります。
この論文では、監視情報を効果的に活用して、分類に役立つ方法で欠落データを補完する新しいフレームワークを提案します。
具体的には、このフレームワークは 2 つの段階で動作します。
まず、ラベルを活用して、分類精度を高める目的で、カーネル マトリックスで表されるデータ間の類似関係の最適化を監視します。
このプロセス中に発生する可能性のあるオーバーフィッティングを軽減するために、摂動変数が導入され、フレームワークの堅牢性が向上します。
第 2 に、学習されたカーネル行列は、ブロック座標降下法を利用した回帰によるデータ代入をガイドするための追加の監視情報として機能します。
提案手法の優位性を 4 つの現実世界のデータセットに対して、最先端の代入手法と比較することで評価します。
驚くべきことに、データに特徴の 60\% 以上が欠落している場合、私たちのアルゴリズムは他の方法よりも大幅に優れています。

要約(オリジナル)

Data imputation, the process of filling in missing feature elements for incomplete data sets, plays a crucial role in data-driven learning. A fundamental belief is that data imputation is helpful for learning performance, and it follows that the pursuit of better classification can guide the data imputation process. While some works consider using label information to assist in this task, their simplistic utilization of labels lacks flexibility and may rely on strict assumptions. In this paper, we propose a new framework that effectively leverages supervision information to complete missing data in a manner conducive to classification. Specifically, this framework operates in two stages. Firstly, it leverages labels to supervise the optimization of similarity relationships among data, represented by the kernel matrix, with the goal of enhancing classification accuracy. To mitigate overfitting that may occur during this process, a perturbation variable is introduced to improve the robustness of the framework. Secondly, the learned kernel matrix serves as additional supervision information to guide data imputation through regression, utilizing the block coordinate descent method. The superiority of the proposed method is evaluated on four real-world data sets by comparing it with state-of-the-art imputation methods. Remarkably, our algorithm significantly outperforms other methods when the data is missing more than 60\% of the features

arxiv情報

著者 Ruikai Yang,Fan He,Mingzhen He,Kaijie Wang,Xiaolin Huang
発行日 2024-05-13 14:44:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク