AdapTable: Test-Time Adaptation for Tabular Data via Shift-Aware Uncertainty Calibrator and Label Distribution Handler

要約

実際のアプリケーションでは、表形式のデータは広範囲に存在し、豊富に存在するため、分布の変化に悩まされることが多く、事前トレーニングされた機械学習モデルの誤った予測につながります。
ただし、表形式ドメインにおけるこのような分布の変化への対処は、さまざまな属性やデータセット サイズなどの特有の課題や、表形式データの深層学習モデルの表現学習機能が限られているため、比較的研究が進んでいません。
特に、ソースドメインにアクセスせずに、推論フェーズ中にラベルのないターゲットドメインに既製のモデルを適応させる、テスト時適応(TTA)という最近の有望なパラダイムでは、一般的に使用されている TTA 手法を直接採用することが観察されています。
他のドメインからのアクセスは、多くの場合モデルの崩壊につながります。
私たちは、歪んだエントロピー、複雑な潜在空間決定境界、自信過剰と自信不足の両方による信頼度調整の問題、クラスの不均衡を伴うソースラベル分布に対するモデルの偏りなど、表形式データのテスト時の適応における課題を体系的に調査します。
これらの洞察に基づいて、ターゲットのラベル分布を推定し、校正された不確実性に基づいて初期確率を調整することにより、出力確率を直接変更する新しい表形式のテスト時間適応方法である AdapTable を紹介します。
自然分布の変化と合成破損の両方に関する広範な実験により、提案された方法の適応効果が実証されています。

要約(オリジナル)

In real-world applications, tabular data often suffer from distribution shifts due to their widespread and abundant nature, leading to erroneous predictions of pre-trained machine learning models. However, addressing such distribution shifts in the tabular domain has been relatively underexplored due to unique challenges such as varying attributes and dataset sizes, as well as the limited representation learning capabilities of deep learning models for tabular data. Particularly, with the recent promising paradigm of test-time adaptation (TTA), where we adapt the off-the-shelf model to the unlabeled target domain during the inference phase without accessing the source domain, we observe that directly adopting commonly used TTA methods from other domains often leads to model collapse. We systematically explore challenges in tabular data test-time adaptation, including skewed entropy, complex latent space decision boundaries, confidence calibration issues with both overconfident and under-confident, and model bias towards source label distributions along with class imbalances. Based on these insights, we introduce AdapTable, a novel tabular test-time adaptation method that directly modifies output probabilities by estimating target label distributions and adjusting initial probabilities based on calibrated uncertainty. Extensive experiments on both natural distribution shifts and synthetic corruptions demonstrate the adaptation efficacy of the proposed method.

arxiv情報

著者 Changhun Kim,Taewon Kim,Seungyeon Woo,June Yong Yang,Eunho Yang
発行日 2024-07-15 15:02:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク