Can We Trust Race Prediction?

要約

人種や民族に関する機密データが存在しない場合、研究者、規制当局、企業は同様に代理人に頼ることになります。
この論文では、米国全 50 州の有権者登録データの新しいデータセットで双方向長短期記憶 (BiLSTM) モデルをトレーニングし、サンプル外 (OOS) F1 スコアよりも最大 36.8% 高いアンサンブルを作成します。
文献の中で最もパフォーマンスの高い機械学習モデル。
さらに、ベイジアン改良型姓ジオコーディング (BISG) とベイジアン改良型姓ジオコーディング (BIFSG) の適用範囲と精度を向上させるために、米国の名字分布の最も包括的なデータベースを構築しました。
最後に、既存のモデルを公平に比較​​し、将来のモデル開発者を支援するために、最初の高品質ベンチマーク データセットを提供します。

要約(オリジナル)

In the absence of sensitive race and ethnicity data, researchers, regulators, and firms alike turn to proxies. In this paper, I train a Bidirectional Long Short-Term Memory (BiLSTM) model on a novel dataset of voter registration data from all 50 US states and create an ensemble that achieves up to 36.8% higher out of sample (OOS) F1 scores than the best performing machine learning models in the literature. Additionally, I construct the most comprehensive database of first and surname distributions in the US in order to improve the coverage and accuracy of Bayesian Improved Surname Geocoding (BISG) and Bayesian Improved Firstname Surname Geocoding (BIFSG). Finally, I provide the first high-quality benchmark dataset in order to fairly compare existing models and aid future model developers.

arxiv情報

著者 Cangyuan Li
発行日 2023-07-17 13:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG, stat.ML パーマリンク