Fast Iterative and Task-Specific Imputation with Online Learning

要約

機能値の欠落は、分類や回帰などの下流の機械学習タスクの重要なハードルです。
ただし、たとえば、複数の実生活のユースケース、たとえば創薬の研究では、それらは広まっています。
さらに、帰属方法は時間がかかり、特に継続的ではないランダムメカニズムのために、帰属品質についてはほとんど保証を提供しないかもしれません。
データポイントの各隣接の重みを学習するK-nearest Neighborの代入の反復改善に基づいて、F3Iという名前の代入アプローチを提案し、データポイントを超えるポイントの最も可能性の高い分布を最適化します。
このアルゴリズムは、帰属値の下流タスクと共同でトレーニングすることもできます。
いくつかのタイプの欠落メカニズムについて、F3Iによる帰属品質の理論分析を提供します。
また、合成データセットと実生活の薬物再利用および手書き桁認識データの両方でF3Iのパフォーマンスを示します。

要約(オリジナル)

Missing feature values are a significant hurdle for downstream machine-learning tasks such as classification and regression. However, they are pervasive in multiple real-life use cases, for instance, in drug discovery research. Moreover, imputation methods might be time-consuming and offer few guarantees on the imputation quality, especially for not-missing-at-random mechanisms. We propose an imputation approach named F3I based on the iterative improvement of a K-nearest neighbor imputation that learns the weights for each neighbor of a data point, optimizing for the most likely distribution of points over data points. This algorithm can also be jointly trained with a downstream task on the imputed values. We provide a theoretical analysis of the imputation quality by F3I for several types of missing mechanisms. We also demonstrate the performance of F3I on both synthetic data sets and real-life drug repurposing and handwritten-digit recognition data.

arxiv情報

著者 Rahul Bordoloi,Clémence Réda,Saptarshi Bej
発行日 2025-01-23 16:04:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク