A Context-Aware Approach for Enhancing Data Imputation with Pre-trained Language Models

要約

このペーパーでは、\ textbf {c} ontextally \ textbf {r} elevant \ textbf {i} mputation \ textbf {l} anguage \ textbf {m} odels(\ textbf {crilm})をレバレッジレバリングレバレンスした新しいアプローチを提示します。
Crilmは、従来の数値推定に依存する代わりに、事前に訓練された言語モデル(LMS)を使用して、欠損値のコンテキストに関連する記述子を作成します。
このメソッドは、データセットをLMSの強度に合わせて、大規模なLMSがこれらの記述子と小さなLMSを生成し、濃縮データセットで微調整できるようにします。
私たちの評価は、MCAR、MAR、および挑戦的なMNARシナリオでのCrilmの優れたパフォーマンスと堅牢性を示しており、最高のパフォーマンスのベースラインよりも最大10 \%改善されています。
特にMNARの設定でバイアスを緩和することにより、Crilmはダウンストリームタスクのパフォーマンスを改善し、リソース制約の環境に費用対効果の高いソリューションを提供します。

要約(オリジナル)

This paper presents a novel approach named \textbf{C}ontextually \textbf{R}elevant \textbf{I}mputation leveraging pre-trained \textbf{L}anguage \textbf{M}odels (\textbf{CRILM}) for handling missing data in tabular datasets. Instead of relying on traditional numerical estimations, CRILM uses pre-trained language models (LMs) to create contextually relevant descriptors for missing values. This method aligns datasets with LMs’ strengths, allowing large LMs to generate these descriptors and small LMs to be fine-tuned on the enriched datasets for enhanced downstream task performance. Our evaluations demonstrate CRILM’s superior performance and robustness across MCAR, MAR, and challenging MNAR scenarios, with up to a 10\% improvement over the best-performing baselines. By mitigating biases, particularly in MNAR settings, CRILM improves downstream task performance and offers a cost-effective solution for resource-constrained environments.

arxiv情報

著者 Ahatsham Hayat,Mohammad Rashedul Hasan
発行日 2025-03-27 16:22:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク