Missing Data Imputation by Reducing Mutual Information with Rectified Flows

要約

このペーパーでは、データとそれに対応する欠落マスク間の相互情報を順次削減する欠落データ代入のための新しい反復方法を紹介します。
Ganベースのアプローチに触発され、発電機を訓練して欠落パターンの予測可能性を低下させると、この方法は相互情報の削減を明示的にターゲットにしています。
具体的には、私たちのアルゴリズムは、帰属データと欠落マスクの共同分布と以前のイテレーションからの限界の積との間のKLの発散を繰り返し最小限に抑えます。
このフレームワークの下での最適な代入は、速度フィールドが修正フロートレーニングの目的を最小限に抑えるODEの解決に対応していることを示します。
さらに、いくつかの既存の帰属手法は、相互情報削減フレームワークのおおよその特別なケースとして解釈できることを示しています。
合成および実世界のデータセットに関する包括的な実験は、提案されたアプローチの有効性を検証し、優れた代入パフォーマンスを実証します。

要約(オリジナル)

This paper introduces a novel iterative method for missing data imputation that sequentially reduces the mutual information between data and their corresponding missing mask. Inspired by GAN-based approaches, which train generators to decrease the predictability of missingness patterns, our method explicitly targets the reduction of mutual information. Specifically, our algorithm iteratively minimizes the KL divergence between the joint distribution of the imputed data and missing mask, and the product of their marginals from the previous iteration. We show that the optimal imputation under this framework corresponds to solving an ODE, whose velocity field minimizes a rectified flow training objective. We further illustrate that some existing imputation techniques can be interpreted as approximate special cases of our mutual-information-reducing framework. Comprehensive experiments on synthetic and real-world datasets validate the efficacy of our proposed approach, demonstrating superior imputation performance.

arxiv情報

著者 Jiahao Yu,Qizhen Ying,Leyang Wang,Ziyue Jiang,Song Liu
発行日 2025-06-09 16:46:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク