CAVIAR: Categorical-Variable Embeddings for Accurate and Robust Inference

要約

社会科学の研究は多くの場合、カテゴリ変数と結果の関係に左右されます。
CAVIAR は、高次元のアンビエント空間の値を仮定し、基礎となる多様体からサンプリングされたカテゴリ変数を埋め込むための新しい方法です。
私たちの理論的および数値的分析は、因果推論におけるそのようなカテゴリ変数によってもたらされる課題を概説します。
具体的には、レベルが動的に変化し、まばらであると、ドンスカー条件の違反や、推定関数が緊密なガウス過程に収束しない可能性があります。
まれなカテゴリレベルの除外や LASSO のような原則に基づいた変数選択モデルなどの従来のアプローチでは不十分です。
CAVIAR は、データを低次元のグローバル座標系に埋め込みます。
マッピングは構造化データと非構造化データの両方から導き出すことができ、次元削減を通じて安定したロバストな推定を保証します。
消費者直販のアパレル販売のデータセットで、郵便番号などの高次元のカテゴリ変数がどのように簡潔に表現され、推論と分析が容易になるかを示します。

要約(オリジナル)

Social science research often hinges on the relationship between categorical variables and outcomes. We introduce CAVIAR, a novel method for embedding categorical variables that assume values in a high-dimensional ambient space but are sampled from an underlying manifold. Our theoretical and numerical analyses outline challenges posed by such categorical variables in causal inference. Specifically, dynamically varying and sparse levels can lead to violations of the Donsker conditions and a failure of the estimation functionals to converge to a tight Gaussian process. Traditional approaches, including the exclusion of rare categorical levels and principled variable selection models like LASSO, fall short. CAVIAR embeds the data into a lower-dimensional global coordinate system. The mapping can be derived from both structured and unstructured data, and ensures stable and robust estimates through dimensionality reduction. In a dataset of direct-to-consumer apparel sales, we illustrate how high-dimensional categorical variables, such as zip codes, can be succinctly represented, facilitating inference and analysis.

arxiv情報

著者 Anirban Mukherjee,Hannah Hanwen Chang
発行日 2024-04-11 16:11:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM パーマリンク